施莽教授团队和李兆融团队利用AI算法重新定义病毒圈
中山大学水产动物疫病防控与健康养殖全国重点实验室、中山大学医学院施莽教授、阿里云李兆融等研究团队通过整合序列与预测结构信息的AI算法(LucaProt),在全球10,487个宏转录组中成功识别161,979种潜在的RNA病毒物种及180个RNA病毒超群,揭示了大量尚未被认知的病毒“暗物质”。这一重要突破标志着深度学习算法在病毒发现领域的重要进展,开辟了病毒学研究的新方向。相关成果以题为《利用人工智能揭示隐藏的RNA病毒圈》("Using Artificial Intelligence to Document the Hidden RNA Virosphere")的论文,于2024年10月9日在线发表于《细胞》(Cell)杂志。论文链接://www.cell.com/cell/fulltext/S0092-8674(24)01085-7。
病毒是地球生态系统的重要组成部分,与人类健康密切相关。然而我们对病毒多样性的认识仍然非常有限,而目前已知的病毒种类仅是病毒圈的冰山一角。高效、准确地发现和鉴定新病毒是病毒学研究的基础,但一直以来充满挑战。传统的RNA病毒鉴定方法高度依赖于序列同源性比对,即通过比较未知病毒与已知病毒的序列相似性来识别。然而,由于RNA病毒种类繁多且高度分化,这种方法难以捕捉缺乏同源性或同源性极低的“暗物质病毒”,因此难以突破“已知”框架的限制。
AI的引入使突破“已知”、探索“未知”成为可能。该研究采用的核心算法“LucaProt”是一种基于Transformer的深度学习语言模型,它利用蛋白质序列和结构信息进行预测,在测试数据集上表现优异,具有极高的准确性(假阳性率仅为0.014%)和特异性(假阴性率为1.72%)。研究团队利用“LucaProt”深度挖掘了来自全球各类生物环境的10,487份宏转录组数据,揭示了513,134条病毒基因组,代表着161,979个潜在的RNA病毒物种和180个RNA病毒超群(相当于门或纲的分类级别),使RNA病毒超群数量增加了约9倍。其中,23个超群因无法通过传统的同源性分析识别,被称为病毒圈的“暗物质”。这些新发现的病毒来自地球上的各类生态环境,如南极底泥、深海热泉、活性污泥和盐碱滩等极端环境,显著拓宽了人们对RNA病毒分布和适宜生境的理解。例如,研究发现即使在高温的深海热泉等RNA极不稳定的环境中,RNA病毒仍能够活跃复制。此外,研究还发现了迄今为止最长的RNA病毒基因组,长度达到47,250个核苷酸,并揭示了超越传统认知的基因组结构,展示了RNA病毒在基因组进化上的高度灵活性。
这项研究首次将人工智能与病毒学结合,开创性地应用于新病原体的发现,突破了传统的病毒分离和同源性分析方法,极大地扩展了人们对病毒圈的认知。LucaProt模型的成功标志着人工智能在病毒发现领域的重大突破。展望未来,人工智能在解决生物学问题中的应用潜力巨大,有望成为微生物学领域的核心工具。
本研究得到了中国自然科学基金委和深圳市科技创新委员会相关项目的资助,“水产动物疫病防控与健康养殖全国重点实验室”和“传染病溯源预警与智能决策全国重点实验室”平台的大力支持。中山大学医学院侯新博士、阿里云贺勇为共同第一作者。中山大学医学院施莽教授、阿里云李兆融、和悉尼大学的Edward Holmes教授为本文通讯作者。
图:使用AI对全球病毒圈的深度挖掘