
近日,伏羲团队最新论文“A data-to-forecast machine learning system for global weather ”在《Nature Communications》发表。其中提出的FuXi Weather系统,是首个能够独立完成数据同化(DA)与循环预报的端到端机器学习全球天气预报框架。它通过融合多源卫星观测数据,以0.25°分辨率生成10天可靠预报,在观测稀疏地区(如非洲中部)的表现甚至超越欧洲中期天气预报中心(ECMWF)的高分辨率预报(HRES)。复旦大学人工智能创新与产业研究院博士后仲晓辉为本文共同第一作者,复旦大学人工智能创新与产业研究院李昊研究员、漆远教授为共同通讯作者。

FuXi Weather系统示意图
自 1950 年 ENIAC 首次成功实现数值天气预报以来,传统数值天气预报(NWP)系统不断发展,但如今面临着难以突破的瓶颈。
1. 算力深渊:高分辨率模型需要超级计算机支持,ECMWF高分辨率预报(HRES)需动用数万CPU核,计算成本高昂;
2. 数据浪费:传统变分同化系统仅能利用5%-10%的海量卫星观测资料,大量有价值的信息被浪费。
3. 全球失衡:低收入国家因观测基础设施不足,预报精度长期滞后。
尽管机器学习模型(如 GraphCast、Pangu-Weather)在预报环节已媲美传统 NWP,但其依赖 NWP 提供的初始条件,DA 环节仍未被机器学习替代,让机器学习模型直接从原始观测完成循环同化 + 预报,成为当前的核心挑战。
FuXi Weather能够实现从原始卫星数据到10天预报的完整闭环,其核心创新在于:
1. 数据同化模块:直接处理原始卫星数据(FY-3E、Metop-C、NOAA-20的亮温及GNSS-RO数据),首次实现“全网格、全地表、全通道、全天候”同化;采用改进的PointPillars方法处理稀疏观测,引入变量/仪器专用编码器;通过背景场(6小时至5天的FuXi预报)约束分析场,降低同化病态性。
2. 预报模块:分阶段预测:FuXi-Short(0-4天)和FuXi-Medium(4-10天);训练数据:基于ERA5再分析数据(0.25°分辨率),FuXi-DA使用1年卫星数据(2022-2023),FuXi使用37年数据
3. 系统验证方式:测试周期:2023.07.03-2024.06.30;评估指标:均方根误差(RMSE)、异常相关系数(ACC),以ERA5为基准;对比对象:ECMWF HRES,统计显著性通过t检验(置信度95%)。
FuXi-Weather将预报模型和同化模型联合优化,直接对预报结果做端到端优化。仅仅用三颗极轨和部分掩星数据,从白噪声开始循环同化,实现了全球的高精度天气预报。

FuXi Weather与传统NWP(ECMWF HRES)有效预报时长比较
大部分变量有效预报天数超过了ECMWF HRES,500 hPa位势高度Z500有效预报时长从9.25天提升至9.50天,超越NWP系统;
在非洲中部等观测稀疏地区,2 米温度(T2M)的 ACC 在 10 天内持续高于 0.6,而 ECMWF HRES 仅能维持 2 天;
另外,计算成本大幅下降,可为资源受限国家提供可行的高分辨率预报方案。
因同化卫星数据量有限(ECMWF使用约90种仪器,FuXi仅5种),初期RMSE高于HRES;受ERA5训练数据固有误差影响,对比IMERG降水数据时ACC较低;机器学习模型易生成过度平滑的预测,需引入生成模型或物理约束改进。
未来将继续扩展观测类型(如无线电探空、雷达数据);开发隐式DA框架,直接从历史观测序列生成预报;优化混合并行策略,提升超大规模数据训练效率。
今年伏羲团队在上述工作的基础上同化了更多真实观测数据,研发了新的FuXi-Weather 2.0模型,精度上有了更大幅度的提升,敬请期待。