近期,复旦大学人工智能创新与产业研究院、上海科学智能研究院的联合研究成果"ChromFound: Towards A Universal Foundation Model for Single-Cell Chromatin Accessibility Data" 获人工智能顶级会议NeurIPS 2025接收。
团队研发的 ChromFound模型——是首个系统性实现全基因组长程建模与跨组织泛化的单细胞染色质可及性测序(scATAC-seq)基础模型。
复旦大学人工智能创新与产业研究院博士生刘雨晨为论文共同第一作者;程远研究员、漆远教授及博士生郭昕为共同通讯作者;博士生蒋晨、张宏伟与副院长韩丽妹作为共同作者参与研究。本研究由复旦大学CFFF智算平台与星河启智智能开放平台提供算力及技术支持。
在我们的生命蓝图——人类基因组中,除编码蛋白质的基因外,还蕴藏着海量的“调控密码”,即开放染色质区域(OCRs)。它们决定了不同基因在何时、何地被“打开”或“关闭”,是控制细胞身份与功能的幕后指挥。在单细胞层面解析 OCRs,对于揭示细胞异质性、构建细胞调控图谱以及理解基因表达机制具有关键意义,也是当前生命科学领域的前沿挑战之一。
单细胞染色质可及性测序技术(scATAC-seq)的问世,使得在单细胞水平上“看见”染色质的开放状态成为可能,从而为揭示基因调控规律提供了有力工具。然而,scATAC-seq 数据具有高度复杂性:单个细胞往往包含上百万个潜在开放区域,实际有效开放信号极少,具有高稀疏性;同时,不同测序平台之间存在技术差异,缺乏统一的数据表示方法。
这些因素长期制约着 scATAC-seq 技术的建模与整合分析。因此,开发一种通用的 scATAC-seq 基础模型,已成为领域内的重要课题。
ChromFound的设计理念,是让模型能够理解染色质结构的语法:它采用基因组感知的Token化策略来编码开放区域的染色体位置与连续信号,并通过融合Mamba长程建模与窗口化自注意机制(WPSA)的混合架构,在全基因组范围内捕捉短程与远程调控依赖关系。
1. 跨组织泛化与多组学协同表征
ChromFound基于197万单细胞、覆盖30余种组织与6类疾病条件的超大规模预训练数据,首次实现了染色质可及性数据的统一建模与跨组织泛化。
在8个公开数据集上,ChromFound在细胞聚类等核心任务中的平均ARI(Adjusted Rand Index)提升达17.02%,在不同平台与组织间均表现出稳定的泛化性能。
在跨组学任务中,ChromFound能从ATAC信号准确预测基因表达与染色质活性关系,PCC(Pearson Correlation Coefficient)提升最高达5.1%,构建了连接表观层与转录层的高保真映射框架。这意味着模型不仅能“理解”染色质开放程度,还能“翻译”其对基因表达的功能影响。
2. 增强子—基因调控机制精准解析
借助基因组感知的OCR (Open Chromatin Region)标记体系与全基因组长程建模架构,ChromFound首次在单细胞层面实现了增强子—基因调控关系及扰动响应的定量预测。在K562细胞实验中,模型对增强子敲降效应的预测AUC(Area Under the Curve)最高达到0.77,准确再现了真实CRISPR实验中的转录反应模式。
这一结果为复杂疾病中非编码变异的功能解释与表观遗传机制解析提供了新的计算工具,使研究者能够从基础层面理解疾病相关调控失衡的分子根源。
3.模型架构创新与泛化鲁棒性
ChromFound融合Mamba状态空间模型的高效长程建模能力与WPSA模块的局部依赖学习机制,在保证计算可扩展性的同时,能在百万级OCR序列中捕捉远距离调控信号。
同时,ChromFound提出了融合基因组信息的OCR Tokenization策略,能够同时编码染色质开放区域的染色体位置与连续可及性信号。这一设计显著提升了模型对不同peak calling策略和测序噪声的鲁棒性,使其在跨组织、跨平台数据中仍能保持一致的特征表达。
ChromFound的提出,不仅为单细胞染色质可及性分析提供了一种统一的计算框架,更在方法论上开辟了“从表达建模到调控建模”的新方向。以往的单细胞大模型多集中于转录组层面的特征学习,而ChromFound将调控层纳入基础模型体系,使得人工智能能够直接理解基因表达背后的因果机制。这意味着我们正从观测细胞状态迈向推理调控过程。
在更广阔的科学图景中,ChromFound正推动非编码基因组研究进入由计算方法驱动的新阶段。它让原本难以解析的增强子、启动子、转录因子结合位点等调控元素,得以在统一的表征空间中被量化与比较,为探索复杂疾病的表观遗传机制提供了可复用的底层模型。未来,ChromFound有望成为构建全基因组调控知识图谱的重要引擎,支撑大规模跨组织、跨物种的调控网络重建。
同时,ChromFound的通用架构也为多模态整合研究打开了新的可能。通过与RNA、空间组学及影像组学模型的融合,它将帮助研究者在不同层次之间建立关联,从DNA的结构可及性,到RNA的动态表达,再到细胞与组织的空间分布,逐步形成生命系统的全景表征。
在AI for Science的语境下,ChromFound不仅是一项模型创新,更是面向生命调控体系的计算基础设施。它让研究者能够以前所未有的分辨率审视基因组调控逻辑,也为下一代数字生命模型提供了表观层支撑。未来,随着更多跨模态数据的加入与下游任务的拓展,ChromFound致力于持续推动研究者理解基因如何被调控、细胞如何形成、生命如何演化。
论文链接:
https://arxiv.org/abs/2505.12638
开源代码地址:
https://github.com/JohnsonKlose/ChromFound