T细胞受体与抗原表位的特异性识别构成适应性免疫核心,是新抗原疫苗与T细胞疗法开发基础。针对现有免疫深度学习模型评估标准不统一、临床泛化能力弱等共性问题,本研究系统地评估了模型在已见和未见表位预测情境下在内部测试和外部独立测试数据上的性能,评估结果显示多数模型在已见表位预测中表现良好。然而,在未见表位上的表现普遍骤降,接近随机猜测水平,凸显了当前建模策略在泛化能力上的核心限制。本研究进一步发现,模型在外部独立测试集上的性能普遍低于内部测试,说明仅依赖数据集内评估可能高估实际效果,强调了严格外部验证的重要性。在特征分析方面,结果表明整合MHC类型、V(D)J基因和TCRα链的多模态模型普遍优于仅使用CDR3β序列的模型,强调了生物学信息融合对提升预测准确性的关键作用,引领了从单纯数据驱动转向高质量多模态特征融合的新型模型研发新路径,为呼吸系统疾病治疗中抗原特异性免疫识别建模提供了重要方法学参考支持。
研究还评估了不同来源的TCR作为阴性样本对模型性能的影响,具体比较了抗原特异性(AS)、患者来源(PS)和健康人来源(HS)三类TCR的使用效果。结果表明,使用AS或PS样本训练的模型对训练、测试集中相似序列的去除更具鲁棒性,而使用HS样本的模型性能表现出了显著降低,提示HS阴性样本可能引入混杂因素从而导致过拟合。尽管PS和HS阴性样本在内部测试中表现较好,但在外部测试中,显著低于使用AS阴性样本的模型,进一步验证了AS作为负样本来源的可靠性。同时,研究引入了一种改进的AS构建策略,基于TCR在不同MHC、等位基因及抗原类型间的低交叉反应概率,采用错位配对方式,最大限度降低了假阴性配对的可能性,有效减少了假阴性数据对模型训练的干扰。在交叉反应性分析中,本研究发现在改进的AS策略下,无论训练数据是否包含交叉反应TCR,模型在测试集及外部独立测试集上的表现均未出现显著差异。
同时,与广泛使用的随机重排法(AS-Rand)相比,性能变化更小。这些结果说明,在交叉反应率较低的情境中,即使存在潜在假阴性样本,只要引入合理的阴性样本构造策略(如改进的AS),模型的预测能力仍保持稳定。此外,研究还探讨了正负样本比例以及样本规模对模型性能的影响。通过在不同阴性样本比例下对模型进行重训练发现,大多数模型在已见表位测试中随着负样本比例的增加而性能提升,直至正负样本比例约为1:1后趋于稳定。然而,当负样本比例进一步增加后,性能提升趋于饱和,可能由于模型难以从冗余样本中学习到新的结合模式。此外,样本量对模型性能具有明显影响,每个表位关联TCR数量越多,模型平均AUPRC越高,但少数模型在小样本情境下仍保持较好性能,这表明除样本规模外,特征类型与模型结构等其他因素同样影响模型性能。
图1 TCR-表位预测模型的基准测试工作流程
综上所述,本研究不仅系统比较了当前主流TCR–表位结合预测模型的性能差异,还深入分析了影响模型预测效果的关键方法学因素,包括特征选择、负样本构建策略、数据平衡性与数据规模等。研究结果为模型开发者和实际应用者提供了明确参考,揭示了当前建模策略的局限与潜在优化路径。该基准评估框架为未来构建更稳健、可解释且具泛化能力的TCR–表位结合预测模型奠定了基础,有望加速呼吸系统疾病领域基础研究与精准免疫防治等领域的技术进步与临床转化。广州国家实验室的索生宝研究员与中南大学湘雅二院许浩东研究员为本研究通讯作者,广州国家实验室与上海科技大学联合培养博士研究生卢燕萍与广州国家实验室博士后王宇燕为论文第一作者。该研究得到了广州国家实验室专项项目、国家自然科学基金和广东省自然科学基金的大力支持。
原文链接:https://doi.org/10.1038/s41592-025-02910-0



