预测蛋白质结构只是开始 AI或为生命科学领域带来巨变

预测蛋白质结构只是开始 AI或为生命科学领域带来巨变

预测蛋白质结构只是开始 AI或为生命科学领域带来巨变 字体: 小 中 大 分享到: 预测蛋白质结构只是开始 AI或为生命科学领域带来巨变 2021-12-13 08:40:26 来源:科技日报

视觉***提供

在过去的半个世纪里,人类已经分析了50,000多种人类蛋白质的结构。人类蛋白质组中大约17%的氨基酸已经有了结构信息,AlphaFold2预测的结构将这个数字从17%提高到了58%。它所带来的生命科学各个分支的革命,将在未来几年到十几年逐渐显现。

蛋白质结构预测是生物学的重要“圣杯”,也是人工智能和生命科学领域最热门的研究之一。

近日,***自主研发的深度学习蛋白质折叠预测平台TRFold捷报频传。其基于往年第14届国际蛋白质结构预测大赛(CASP14)蛋白质测试集的成绩仅次于“AlphaFold2”位列全球第二,是目前国内所有开放蛋白质结构预测模型中比较好的成绩,***在计算生物学领域的表现位居全球比较好。

从往年AlphaFold比较好次代表人工智能,到往年AlphaFold2利用机器学习方法实现了堪比结构生物学实验的***测量精度,计算生物学为蛋白质的预测这一世纪难题带来了***性的解决方案。人工智能会给生命科学领域带来哪些巨大的变化?蛋白质的结构预测,这个生物学尚未解决的***问题之一,会被人工智能彻底解决吗?

深度学习可以广泛应用于计算生物学。

蛋白质的结构预测是生命科学领域中一个由来已久且引人入胜的问题。同时又以难度大、成本高、进度有限著称。然而,这个被人们认为需要一个世纪才能慢慢探索的问题,近年来有了重大突破:在往年的CASP14比赛中,Google旗下的DeepMind开发的AlphaFold2取得了92.4/100的总分(GDT),也就是说,计算生物学几乎获得了与实验室方法相同精度的蛋白质结构预测结果。

这个里程碑式的事件让结构生物学家觉得,他们用价值1000万美元的电子显微镜努力了几年,Alphafold2居然一下子就出来了。“在我看来,这是人工智能对科学领域的***贡献,也是人类在21世纪取得的最重要的科学突破之一。”物理学家、西湖大学校长石对他大加赞赏。

为什么要预测蛋白质的结构?

天壤蛋白质折叠项目负责人苗洪江向科技日报记者解释说,“研究蛋白质的结构有助于了解蛋白质的作用,蛋白质如何行使其生物学功能以及蛋白质与非蛋白质之间的相互作用,这对生物学、医学和药学非常重要。”

观察蛋白质结构的传统方法有三种,即核磁共振、X射线和冷冻电镜。然而,这些方法往往依赖于大量的试错和昂贵的设备,每个结构的研究将需要数年时间预测(数据为往年仅供参考)。人工智能应用于蛋白质结构预测的刚刚成果,即AlphaFold2,可以在几天甚至几分钟内高置信度地预测出过去需要几十年才能得到的蛋白质结构。

“一开始大家还在开玩笑,说Deepmind是不是通过某种手段窃取了真实的实验结果,直到大家看到文章和开源代码,才不敢相信这是真的发生了。”姜淼笑着说,这一面证明了AlphaFold2预测结果的震撼。“这为人工智能在计算生物学中的广泛应用打开了大门,也让整个领域的人们看到了深度学习可以广泛应用于这一领域,这一点已经被实际的双盲实验结果所证明。”

AI预测结果相当于实验室水平。

1994年,美国科学家JohnMoult发起了每两年举办一次的国际蛋白质结构预测竞赛。举办比赛正是为了吸引计算机科学和生物物理学等不同领域的专家参与蛋白质三维结构预测这一具有挑战性的生物信息学问题。往年,人工智能正式参与蛋白质三维结构的预测,AlphaFold***大显身手,在98个参赛团队中排名比较好。两年后,AlphaFold2带来了真正的突破。它用机器学习的方法预测了几乎所有蛋白质的正确结构,大约三分之二的蛋白质预测精度达到了结构生物学实验的测量精度。

事实上,在过去的半个世纪里,人类已经分析了超过50,000种人类蛋白质的结构。人类蛋白质组中大约17%的氨基酸已经有了结构信息,而AlphaFold2预测的结构把这个数字从17%提高到了58%,因为没有固定结构的氨基酸比例非常大,58%的结构预测接近极限。它所带来的生命科学各个分支的革命,将在未来几年到十几年逐渐显现。

石在接受媒体采访时表示,人类蛋白质组中空单个蛋白质可以预测的三维结构,AlphaFold2已经基本预测出来了。总体而言,预测结果可信且准确。这对于结构生物学来说是一个***性的突破。一些以前人类没有分析过的结构,现在基本都预测出来了。

对于生物化学、细胞生物学、遗传发育、神经生物学、微生物学和病理药理学等大量生命学科和研究领域来说,这将大大提高人们对生命过程的认识。例如,遗传学家可能积累了大量数据,但如果他们不知道蛋白质的结构,他们就无法研究一个突变对蛋白质功能的影响。现在,情况不同了。通过对AlphaFold2的结构预测,我们可以看到每个突变在人类遗传病相关蛋白质结构中的具体位置,进而有可能猜测蛋白质功能是如何受到影响的。

比如DeepMind预测的蛋白质结构,包含了大量结构未知的药物靶蛋白,包括很多G蛋白偶联受体和关键酶,预测的结构足够准确。这对制药行业来说太重要了,它为可靠的药物设计和药物优化提供了重要依据。

单个蛋白质结构预测只是起点。

今年7月,DeepMind公布了AlphaFold2的源代码,并在《自然》杂志上发表论文解释了AlphaFold2的技术细节。

“这次开源在生物学领域引起了很大的波澜,意味着生物学家终于摆脱了先进设备的束缚。以前,这些昂贵的先进设备只能由资金雄厚的大学或研究机构部署。从此,小团队或个体研究人员有了参与蛋白质研究的可能。”天壤创始人、上海交通大学计算机系原副教授薛说。

姜淼认为,目前对单个蛋白质结构的预测只是一个起点,还有更精确的侧链优化、蛋白质的动态分析、蛋白质与其配体(如小分子、DNA、RNA、多肽、蛋白质等)的相互作用等一系列问题。)都还没有解决,下一步的工作重点将是利用目前所有蛋白质组的协同进化分析,建立蛋白质与蛋白质之间准确的相互作用联系。

有了算法模型,才刚刚开始,前进的难度还大得多。薛坦言:“计算能力是一个很大的制约。比如AlphaFold2做了大量的数据蒸馏工作,他们的算法模型是基于30%的真实数据和70%的蒸馏数据,有巨大的计算能力做支撑。”

足够的计算能力可以使蛋白质结构预测从单一结构进展到相互作用,从成对研究进展到规模,从微观结构进展到宏观体系。“生物学中有许多蛋白质结构,例如,基因测序可能已经测量了数十亿个序列。但是我们只知道序列,不知道结构,这是一个很大的信息缺失问题。”薛说:“蛋白质通常以化合物的形式成对或成组地承担着生命所需的各种功能。然而,许多蛋白质复合物的结构仍然是一个谜,蛋白质之间的相互作用尚未确定。我们需要有足够的计算能力来支撑整个系统,开展蛋白质结构预测、蛋白质设计、研究蛋白质相互作用、药物研发等漫长而富有挑战性的工作,并找到精确治疗疾病的新方法。”

同时,在数据来源和应用方面,也需要药企和医院的合作和联动。“未来会有更多的药企、机构、人工智能公司一起把这个行业做大,现在只是一个开始。”薛对说道。(记者崔爽)

【纠错】
  • 姓名:
  • 专业:
  • 层次:
  • 电话:
  • 微信:
  • 备注:
文章标题:预测蛋白质结构只是开始 AI或为生命科学领域带来巨变
本文地址:https://www.55jiaoyu.com/show-270631.html
本文由合作方发布,不代表展全思梦立场,转载联系作者并注明出处:展全思梦

热门文档

推荐文档