科研动态 | Efficient NARD:通用大规模网络图谱构建及其应用-复旦大学人工智能创新与产业研究院
新闻动态

    科研动态 | Efficient NARD:通用大规模网络图谱构建及其应用

    发布时间:2025-07-10浏览次数:

    随着大数据时代的到来,各领域数据量急剧增长,传统统计概率模型在处理大规模数据时往往因计算效率不足而显得力不从心,尤其是在生命科学、环境健康和金融风险控制等数据密集型领域。而另一方面,研究者日益依赖于从海量的高维、多模态数据中构建变量间网络结构,以揭示系统内部的关联机制,从而发现新的科学规律。现有建模工具在处理如表型组等高通量数据时,普遍受限于高计算复杂度,难以高效支持大规模、跨尺度的网络构建。

    为应对这一挑战,复旦大学人工智能创新与产业研究院与上海科学智能研究院联合研究团队开发了Network Automatic Relevance Determination(NARD),一种针对多输出回归问题的稀疏网络建模方法。NARD能够在高维输入空间中自动识别最具相关性的特征变量,并同时估计输出变量之间的结构化关系,从而实现对系统内部相互作用的精准建模。该方法通过统一的贝叶斯框架,为复杂数据环境下的变量选择和网络推理提供了兼具模型解释性和结构发现能力的解决方案。

    这篇题为Efficient Network Automatic Relevance Determination的工作已被国际机器学习顶级会议ICML 2025接收,并成功应用于国际人类表型组计划的人类表型网络构建中,复旦大学人工智能创新与产业研究院博士生张宏伟为第一作者,漆远教授、胡子欣副研究员为通讯作者。


    NARD的核心贡献

    在NARD框架下,针对传统ARD算法在高维数据处理中的不足,研究团队提出了一系列优化改进,显著提升了参数稀疏性和计算效率。首先,通过对回归系数矩阵引入ARD先验,NARD能够有效识别对输出预测最重要的输入特征,同时对精度矩阵施加L1惩罚以促进输出间依赖关系的稀疏性,从而实现稀疏网络建模。

    然而,传统ARD方法在高维场景下面临计算复杂度高的问题,标准EM优化或II型最大似然估计因矩阵求逆导致O(d³)的计算成本。

    为此,NARD在计算效率上做了多步算法优化。首先,受Tipping的贪婪方法(Tipping & Paul, 2003)启发,开发了序贯更新方法,通过顺序添加和删除特征来构建模型,而不是一次性处理所有特征。顺序更新方法利用矩阵的行列式和逆矩阵引理(如Woodbury identity),避免高维矩阵求逆,将对数似然函数分解为与特定特征相关的部分,仅更新局部参数,避免全矩阵运算。通过迭代方式逐步调整特征集,计算复杂度显著降低,尤其适用于高维数据(特征数d很大时)。

    其次,引入代理函数来近似NARD的目标函数。代理函数通过简化优化目标,近似原对数边缘似然的下界,有效避免了矩阵求逆操作,使得计算更高效。最后通过综合顺序迭代算法与代理函数优化的优势,结合顺序更新的局部特征处理能力和代理函数的计算简化,最终得到的Efficient NARD能在高维数据上进一步减少计算负担。

    这些改进显著降低了计算复杂度,使NARD在高维数据集上更具可扩展性和高效性,为大规模稀疏网络建模提供了强有力的支持。

    该算法在多个应用场景中展现了出色的性能,在大规模表型数据中,通过分析基因表达数据,识别表型与生物标志物的关联网络,均方误差(MSE)降低10%,决定系数(R²)提高15%,识别的生物标志物与已知生物学通路高度一致,具有显著生物学意义。此外NARD算法在TCGA癌症数据、空气污染数据、金融数据等多类数据中均表现出良好的性能,验证了其在不同领域的广泛适用性。



    国际人类表型组计划中的应用

    表型关联网络建模是解析生物复杂系统的关键环节,其核心科学意义在于揭示微观分子特征与宏观表型之间的跨尺度调控机制。NARD 已被作为当前“国际人类表型组计划”中,全表型组学数据系统生物学分析所采用的核心建模框架。

    该模型目前正被应用于多个前沿研究方向,包括衰老过程建模、运动对系统状态的影响机制、睡眠与多系统交互的网络建构等复杂生物学场景中。其高效性与可解释性不仅为海量表型数据的结构化理解提供了支撑,也为生命科学研究带来了全新的系统建模视角。


    论文链接:https://openreview.net/pdf?id=RfQNtVTY7Q

    本文稿来源于上海科学智能研究院,作者女娲大模型团队



    下一篇:科研动态 | 林晨森等跨尺度空化研究成果在《美国科学院院刊》发表