科学研究科学研究
科学研究
Scientific research
科学研究科研进展

广州国家实验室发布跨尺度疾病表型预测新框架scPhase,助力单细胞水平多层次生物学解析

  • 发布者:广州实验室
       2026年1月21日,广州国家实验室李亦学团队联合中国科学院分子细胞科学卓越创新中心惠利健团队联合在“Genome Medicine”发表了题为“Exploring phenotype-related single-cells through attention-enhanced representation learning”的研究论文,成功开发出单细胞患者级表型预测框架scPhase,并在新冠感染、衰老、阿尔茨海默病及多种癌症等多个真实世界单细胞图谱中得到系统验证,为单细胞数据在精准医学和复杂疾病机制研究中的应用提供了新的计算范式,为呼吸疾病、阿尔茨海默病及多种癌症等复杂疾病的机制解析与精准医疗应用奠定关键技术支撑。
       随着单细胞RNA测序(scRNA-seq)技术的普及,生命科学研究进入高分辨率图谱时代,但如何将微观的细胞分子特征与宏观的患者临床表型精准关联,一直是制约单细胞数据临床转化的关键瓶颈。传统分析流程高度依赖“数据整合—聚类—细胞注释—差异分析”的分析范式,易受批次效应、聚类偏差等因素干扰,导致细胞层面的生物学信号难以稳定映射到患者级临床表型,限制了其在精准医疗和生物标志物发现中的应用。
       针对这一行业难题,研究团队基于多示例学习范式(Multiple Instance Learning, MIL)打造了scPhase框架,创新性地将每位患者的单细胞视为独立“实例”,患者样本定义为包含大量实例的“包(bag)”,实现从细胞层到患者层的端到端整体建模与临床表型预测。其核心优势在于“弱化对聚类注释结果的依赖”,可直接从大规模单细胞数据中学习鲁棒的患者级表征,在完成高精度临床表型预测的同时,同步定位驱动疾病发生发展的关键细胞亚群及分子特征,真正实现“表型预测+机制探索”的闭环衔接。
       为保障scPhase的实用性与稳定性,研究团队在scPhase中引入三项关键设计:第一,引入LinFormer线性注意力模块,将注意力计算复杂度由平方级降至线性级,使模型能够在数百万细胞规模的数据中高效捕捉样本内部的全局细胞依赖关系;第二,采用基于混合专家的多示例学习聚合模块(MoE-MIL),通过门控注意力机制驱动多个“专家”网络协同工作,动态识别并加权与表型差异最相关的关键细胞,将海量单细胞信息聚合为浓缩且鲁棒的患者级表征;第三,结合对抗式域适应策略,在训练过程中有效减弱跨队列、跨平台带来的批次效应,提升模型在不同数据集上的稳定性与泛化能力。此外,scPhase构建了多层次可解释性分析体系:一方面利用MoE-MIL模块的注意力权重刻画细胞层贡献,另一方面结合积分梯度(Integrated Gradients)评估基因层重要性,并可进一步扩展至通路与调控维度,实现对预测结果的系统溯源,从而在表型预测与机制探索之间建立更紧密的闭环衔接。
图1  scPhase模型架构与可解释性框架

       在系统验证中,scPhase展现出卓越的性能与广泛的适配性:在涵盖560名个体的COVID-19跨队列评测中,其预测疾病严重程度的平均AUC值达0.895,远超传统方法,并精准定位CD14+单核细胞、树突状细胞为关键驱动亚群,揭示了重症患者免疫失调的核心特征;在非小细胞肺癌、衰老、阿尔茨海默病、结直肠癌等多个场景的验证中,scPhase均保持高预测精度(部分任务AUC>0.95),且识别的关键细胞群体与分子特征均与已知病理机制高度吻合。
图2  基准测试——多队列数据中的性能验证

       值得关注的是,该框架对呼吸疾病研究具有特殊价值——呼吸疾病往往伴随复杂的细胞异质性和免疫微环境变化,scPhase能够绕过传统分析的局限性,直接从单细胞层面挖掘与患者临床表型(如疾病严重程度、治疗响应、预后等)相关的核心信号,为哮喘、慢性阻塞性肺疾病、肺癌等呼吸领域重大疾病的机制研究、生物标志物发现和精准诊疗提供了全新工具。
       广州国家实验室李亦学研究员、刘俊伟副研究员与中国科学院分子细胞科学卓越创新中心惠利健研究员为该研究的共同通讯作者。广州国家实验室实习生/中国科学院大学杭州高等研究院博士生吴沁桦为本文第一作者,广州国家实验室实习生/中国科学院大学杭州高等研究院博士生丁俊翔、汤臣倍健营养研究院贺瑞坤为本文共同作者。研究得到科技部重点研发项目、广州国家实验室启动项目和重大项目、国家自然科学基金等支持,且scPhase框架的代码已在GitHub开源(https://github.com/wuqinhua/scPhase),将为全球相关领域研究提供普惠性技术支撑。

       文章链接:https://link.springer.com/article/10.1186/s13073-026-01598-x