2026年5月7日,广州国家实验室于福龙研究员课题组联合广州医科大学、湖南大学等单位在Nature Communications上发表研究论文,成功构建单细胞多模态基础大模型CAPTAIN,并发布了全球首个大规模RNA-蛋白单细胞联合语料数据集scT&P-4M,覆盖跨物种多组织来源的420余万个单细胞和382种表面蛋白。基于CAPTAIN精准推断蛋白质驱动的细胞通讯,成功锁定了新冠肺炎中关键的S100A9-CD36炎症轴,为解析呼吸系统免疫失调机制提供了可验证的证据。
呼吸疾病等重大疾病的机制解析、精准诊疗研究中,单细胞人工智能模型是不可或缺的核心工具,可精准刻画细胞真实功能状态、助力解析细胞类型、免疫应答及下游信号通路等关键生物学过程。但scGPT、Geneformer和scFoundation等当前主流的单细胞人工智能模型均主要依赖RNA转录组数据进行训练,对蛋白质组信息,尤其是细胞表面蛋白的建模能力有限而无法完全反映细胞真实功能状态。
为破解现有单细胞人工智能模型仅依赖RNA转录组数据、缺乏蛋白质组信息融合建模能力、难以精准还原细胞真实功能状态的研究瓶颈,研究团队自主研发了基于双编码器Transformer架构的深度学习模型—CAPTAIN。该模型依托前沿人工智能算法,可协同分析转录组与蛋白质组的异质性数据,借助跨模态注意力机制实现RNA与蛋白信息的联合学习;同时融入基因关系先验知识,从多组学视角刻画转录与翻译过程中的调控机制,在统一表征能力上显著优于现有单模态模型。

呼吸疾病等重大疾病的机制解析、精准诊疗研究中,单细胞人工智能模型是不可或缺的核心工具,可精准刻画细胞真实功能状态、助力解析细胞类型、免疫应答及下游信号通路等关键生物学过程。但scGPT、Geneformer和scFoundation等当前主流的单细胞人工智能模型均主要依赖RNA转录组数据进行训练,对蛋白质组信息,尤其是细胞表面蛋白的建模能力有限而无法完全反映细胞真实功能状态。
为破解现有单细胞人工智能模型仅依赖RNA转录组数据、缺乏蛋白质组信息融合建模能力、难以精准还原细胞真实功能状态的研究瓶颈,研究团队自主研发了基于双编码器Transformer架构的深度学习模型—CAPTAIN。该模型依托前沿人工智能算法,可协同分析转录组与蛋白质组的异质性数据,借助跨模态注意力机制实现RNA与蛋白信息的联合学习;同时融入基因关系先验知识,从多组学视角刻画转录与翻译过程中的调控机制,在统一表征能力上显著优于现有单模态模型。

图1 CAPTAIN多模态基础大模型架构
大规模标准化多组学数据集构建:研究团队系统整合了全球公开的转录组与蛋白组配对资源,构建了涵盖人和小鼠两个物种、超420万细胞规模的单细胞转录组-蛋白组联合数据集scT&P-4M,并完成大规模预训练资源的深度加工与标准化整合。通过建立覆盖382种表面蛋白的统一标准化参考语料库,大幅提升跨模态预测模型的覆盖深度。
优异的跨模态推断与泛化能力:多项任务验证表明,CAPTAIN具备强大的泛化性能与跨模态推断实力。在“零样本”(Zero-shot)场景下,仅凭RNA数据,即可精准推断出未经实测的关键免疫蛋白表达,实现了从转录组到蛋白质组的有效映射,打通遗传信息到生物功能执行层的解析链路,大幅提升了单细胞多组学功能图景的刻画精度。在细胞类型注释的任务上,CAPTAIN准确率达96.1%,对难以区分的细粒度T细胞亚群识别展现出突出优势;同时,具备卓越的跨平台整合能力,可有效消除不同测序技术产生的批次效应,为多源数据的协同分析提供了可靠保障。
支撑呼吸疾病机制与转化研究:CAPTAIN的核心优势在于其能够深入解析蛋白质驱动型细胞间通讯。区别于传统基于RNA转录水平推断通讯工具,CAPTAIN聚焦于真正执行生物学功能的细胞表面蛋白,从而构建出更贴近真实生理状态的通讯网络。在COVID-19临床迁移应用中,该模型揭示了随病情加重而增强的S100A9–CD36信号轴,为个体细胞代谢异常引发的炎症风暴提供了重要机制线索。通过分子对接论证了配受体结合的合理性,其结果与既往临床报道高度一致。这一推断为解析复杂疾病免疫机制提供了高置信度的可检验假设,并为后续实验与应用指明了候选方向,彰显了计算模型在疾病机制探索中的加速支撑价值。

优异的跨模态推断与泛化能力:多项任务验证表明,CAPTAIN具备强大的泛化性能与跨模态推断实力。在“零样本”(Zero-shot)场景下,仅凭RNA数据,即可精准推断出未经实测的关键免疫蛋白表达,实现了从转录组到蛋白质组的有效映射,打通遗传信息到生物功能执行层的解析链路,大幅提升了单细胞多组学功能图景的刻画精度。在细胞类型注释的任务上,CAPTAIN准确率达96.1%,对难以区分的细粒度T细胞亚群识别展现出突出优势;同时,具备卓越的跨平台整合能力,可有效消除不同测序技术产生的批次效应,为多源数据的协同分析提供了可靠保障。
支撑呼吸疾病机制与转化研究:CAPTAIN的核心优势在于其能够深入解析蛋白质驱动型细胞间通讯。区别于传统基于RNA转录水平推断通讯工具,CAPTAIN聚焦于真正执行生物学功能的细胞表面蛋白,从而构建出更贴近真实生理状态的通讯网络。在COVID-19临床迁移应用中,该模型揭示了随病情加重而增强的S100A9–CD36信号轴,为个体细胞代谢异常引发的炎症风暴提供了重要机制线索。通过分子对接论证了配受体结合的合理性,其结果与既往临床报道高度一致。这一推断为解析复杂疾病免疫机制提供了高置信度的可检验假设,并为后续实验与应用指明了候选方向,彰显了计算模型在疾病机制探索中的加速支撑价值。

图2 COVID临床数据的S100A9-CD36炎症轴
本研究实现了从“单模态转录组建模”向“多模态转录组和蛋白组联合建模”的跨越式发展。作为面向单细胞多组学时代的蛋白感知型基础模型框架,CAPTAIN不仅为蛋白测量缺失的分析场景提供了高效解决方案,更在生物标志物发现、疾病机制研究、细胞通讯解析和精准医学研究提供了重要工具基础。
广州国家实验室于福龙研究员、湖南大学彭绍亮教授和广东省人民医院张岩研究员为论文共同通讯作者。湖南大学/郑州大学姬博亚副研究员、广州国家实验室胡婷婷博士生和王佳雯博士生为论文共同第一作者。本研究得到了广州国家实验室科研任务专项项目、国家重点研发计划等项目的大力支持。广州国家实验室数据科学平台及生物医学大数据操作系统(Bio-OS)为本研究提供了重要的技术支持。
论文链接:https://doi.org/10.1038/s41467-026-72882-y
广州国家实验室于福龙研究员、湖南大学彭绍亮教授和广东省人民医院张岩研究员为论文共同通讯作者。湖南大学/郑州大学姬博亚副研究员、广州国家实验室胡婷婷博士生和王佳雯博士生为论文共同第一作者。本研究得到了广州国家实验室科研任务专项项目、国家重点研发计划等项目的大力支持。广州国家实验室数据科学平台及生物医学大数据操作系统(Bio-OS)为本研究提供了重要的技术支持。
论文链接:https://doi.org/10.1038/s41467-026-72882-y



