「青莲聚焦」历“九”弥新——揭秘AI 在蛋白质组学是怎样的存在？_公司新闻

北京青莲百奥生物科技有限公司

入驻年限：9 年

联系人：
孙先生
所在地区：
北京昌平区
业务范围：
技术服务
经营模式：
经销商代理商

在线沟通

电话 QQ 联系

「青莲聚焦」历“九”弥新——揭秘AI 在蛋白质组学是怎样的存在？

人阅读发布时间：2021-08-18 15:12

集齐

文末图片

即可召唤千元大礼

前面我们通过对《核酸研究》web service专刊的AI相关文章介绍，大致了解了AI在生命科学各领域中的应用。本篇文章我们将重点介绍AI在蛋白质组学各领域中的应用。

点击图片前情回顾

蛋白质组学最重要的一个领域是以质谱技术为核心，进行蛋白质的鉴定和定量。串联质谱技术的发展，让我们得以从全局角度研究不同生物系统的蛋白表达和翻译后修饰。随着质谱技术的完善与成熟，产出的数据量也呈现高速增长。近几年，越来越多的临床上百例样本被用于蛋白质组的鉴定和定量，使得蛋白质组的数据解析问题日益凸显。因此，在原始数据处理、数据质量控制、蛋白质和肽段的鉴定和定量、翻译后修饰的监测和复杂多样的下游分析等环节需要更复杂的算法，将大量数据转化为有用的生物信息。同时，和临床数据相结合的蛋白质组数据的解析，也为我们解决临床问题提供了更多的可能，如何将复杂的蛋白质组数据和临床数据相结合进行深入的挖掘，也成为了当下重要的研究课题。

人工智能（artificial intelligence, AI）在最近的20年里发展异常迅速，在计算机视觉、语音识别、自然语言处理、生物信息学和医疗图像分析等领域取得优越表现。机器学习是现代人工智能的重要分支，如支持向量机和随机森林等算法常应用于生物数据的分析。作为机器学习的后起之秀，深度学习是以人工神经网络为基础的一类算法和架构。深度学习区别于其他算法的特点之一，是它能自动从数据中学习特征和规律，而不需要手动创建特征（handcrafted feature engineering），即科学家常常基于专业知识或经验进行重要特征的提取。

人工智能早已在生命科学领域被广泛应用。在蛋白质组领域，人工智能也逐渐渗透到了蛋白质组的基础鉴定、定量技术，以及质谱信息和临床研究相结合的数据挖掘中。以下我们从蛋白质组的技术，以及与临床相结合的数据挖掘进行介绍。

PART.1

蛋白质组技术相关的数据预测

蛋白质组技术相关的数据预测，包括了蛋白质组实验各个步骤的数据解析（主要包括保留时间的预测，以及串联谱图的鉴定等），以及翻译后修饰和空间结构的预测等。

保留时间的预测

常规的蛋白质组学分析流程通常包括样品前处理、色谱分离、质谱检测和数据分析。其中，色谱分离是液相色谱-质谱联用（LC-MS）蛋白质组学分析中的关键环节。保留时间（retention time）是指肽段从色谱柱洗脱（elute）的时间点。

准确地预测保留时间有助于1）提升搜库鉴定肽段的灵敏度，2）作为肽段鉴定的质量评估指标，3）构建DIA数据分析的谱图库和4）推进靶向蛋白质组学实验。

可用于预测保留时间的模型主要包括以下几种：

质谱串联谱图的预测

每次质谱实验可获得数十万张质谱谱图（MS/MS spectrum），每张谱图包含不同片段离子的质荷比（m/z）和定量值信息，这些信息只要决定于几个关键因素：1）质谱仪类型和肽段碎裂方法（如CID、HCD或ETD）及参数设定（如归一化碰撞能量，NCE）；2）肽段的序列和修饰；3）肽段的前体电荷态。尽管肽段碎裂的机理很复杂，尚未得到清楚的解释，但在实验中可重现，通常也是可预测的。

利用序列预测谱图的工具从方法上可分为两类：一类是假说驱动的，如移动质子假说在串联质谱肽碎裂的研究中广泛被接受，MassAnalyzer就是其中之一；另一类是数据驱动的，一般采用深度学习或传统机器学习的算法。

目前可用于质谱串联谱图预测的方法有以下：

肽段从头测序

肽段从头测序（de novo peptide sequencing）是深度学习在蛋白质组学中的一项突破性应用。从头测序在不依赖蛋白质数据库的情况下直接从谱图推断出序列。

通常，将谱图看作图片，序列看作图片的文字描述，以编码器-解码器架构（Encoder-decoder architecture）设计深度学习模型。典型的例子是DeepNovo和DeepNovo-DIA。

翻译后修饰的预测

目前已经确定的翻译后修饰（post-translational modification, PTM）方式超过400种, 常见修饰过程有磷酸化、泛素化、甲基化、乙酰化、糖基化、SUMO化、亚硝基化、氧化等。PTM极大地增加了细胞蛋白质组复杂性和蛋白质功能多样性，在很多生物过程中扮演着重要角色。机器学习因为其灵活性和实际表现较好，很早就应用于PTM预测。

深度学习在PTM预测上的应用可分为两类：1）预测某种PTM（如磷酸化）的修饰位点，即某位点是否会发生修饰；2）酶特异性预测，即某位点是否会被特定酶（如某一种磷酸化激酶）修饰。

用于PTM预测的深度学习模型包括：

蛋白质结构预测

蛋白质结构一定程度上决定了蛋白质功能。在蛋白质设计和药物筛选等研究中，利用氨基酸序列预测蛋白质空间结构起重要作用。二级结构是指规则的局部结构模式，通常包含为三种类型，即alpha螺旋、β折叠和β转角。二级结构预测可以辅助同源序列比对。蛋白质通过卷曲折叠会构成三维结构，蛋白质的功能正由其结构决定。了解蛋白质结构有助于开发治疗疾病的药物。AlphaFold是Google旗下DeepMind开发的一款人工智能程序，它采用深度学习算法通过蛋白质序列来预测蛋白质结构，是目前为止秀的蛋白质结构预测程序。

常用蛋白质结构预测方法的工作流程和网络架构：

PART.2

蛋白质组与临床数据结合的数据挖掘

蛋白质组数据只有一小部分用于当前经典的蛋白质鉴定和定量，利用AI技术的特性，结合临床数据与复杂的质谱数据进行深入的挖掘，有望能获得更多的信息。目前已经有不少工作在这领域进行了尝试，我们介绍两个代表性的案例，一个是基于MALDI-TOF的数据进行临床样本的分类，另外一个是对LC-MS的数据分析进行癌和癌旁的分类。

案例一：基于机器学习的COVID-19检测

Ling Yan等开发了一种基于MALDI-TOF MS的高通量血清肽组分析方法，用于有效检测 COVID-19^[^32]。分析了146名COVID-19患者和152名对照病例（包括 73 名具有相似临床症状的非COVID-19患者、33名结核病患者和46名健康人）的血清样本。在 MS 数据处理和特征选择之后，使用八种机器学习方法构建分类模型。具有25个特征峰的逻辑回归机器学习模型在检测COVID-19时实现了准确度（99%），98%的灵敏度和 100%的特异性。这一结果证明了在大量人群中筛查、常规监测和诊断COVID-19的方法的巨大潜力。

案例二：基于深度学习的肿瘤分类

Hao Dong等采用卷积神经网络（CNN）对公共数据库的肿瘤数据建模和分类，提出了用深度学习处理MS原始数据的新方法^[^33]。数据集包括HCC、DGC和DGC组织的癌和癌旁数据各110对、84对和58对。利用SVM预筛选出2048个特征峰，训练得到含3个卷积层的深度学习分类器。在以84对-DGC为训练集和58对-DGC为测试集的测试中，CNN深度学习模型达到90%的准确率。在与其他五个机器学习模型的比较中，CNN深度学习表现更好。在与以MaxQuant为例的常规分析比较中，使用XIC数据的CNN分类器对癌和癌旁之间的显著差异更加敏感。

两篇文章的研究思路是类似的。由于特征峰过多，首先要做的是降维，即筛选数据特征。再构建恰当的数据集用于模型训练，获得AI分类器。基于交叉检验对多个模型做比较，得到最优分类模型和方法。

两个案例也存在不同点。案例一基于机器学习方法，采用三种算法筛选特征，再求并集，最终只选取了排名最靠前的25个特征；而案例二基于CNN深度学习方法，采用一种算法和其他辅助条件筛选2048个特征，数据空间的维度更高。

总结

如上所述，AI在蛋白质组学的很多研究领域表现突出，并且仍有巨大的潜力，甚至在不久的将来可能彻底改变我们分析蛋白质组学数据的方式。不容忽视的是，在多数蛋白质组学研究场景中AI因各种限制而无的放矢；同时，尽管具有优越的性能，但AI模型通常被认为是黑盒子，其可解释性仍然是一个巨大的挑战。目前，正在开发不同的算法和工具来应对这一挑战，如Captum等，但鲜有应用于蛋白质组学研究的报道。

集齐

下方图片

即可召唤千元大礼

亲爱的小伙伴们，本月正值青莲迈向第九年的周年活动月，开展历“九”弥新活动，我们届时会推出四项新研发成果，仅需集齐四张新技术图片就有机会获得我们的千元大礼哦！

参考文献

1. C. Ma, Y. Ren, J. Yang, Z. Ren, H. Yang, S. Liu, Anal. Chem. 2018, 90, 10881.

2. S. Gessulat, T. Schmidt, D. P. Zolg, P. Samaras, K. Schnatbaum, J. Zerweck, T. Knaute, J. Rechenberger, B. Delanghe, A. Huhmer, U. Reimer, H.-C. Ehrlich, S. Aiche, B. Kuster, M. Wilhelm, Nat. Methods. 2019, 16, 509.

3. S. Tiwary, R. Levy, P. Gutenbrunner, F. Salinas Soto, K. K. Palaniappan, L. Deming, M. Berndl, A. Brant, P. Cimermancic, J. Cox, Nat. Methods. 2019, 16, 519.

4. S. Guan, M. F. Moran, B. Ma, Mol. Cell. Proteomics. 2019, 18, 2099.

5. Y. Yang, X. Liu, C. Shen, Y. Lin, P. Yang, L. Qiao, Nat. Commun. 2020, 11, 146.

6. B. Wen, K. Li, Y. Zhang, B. Zhang, Nat. Commun. 2020, 11, 1759.

7. R. Bouwmeester, R. Gabriels, N. Hulstaert, L. Martens, S. Degroeve, bioRxiv 2020. https://doi.org/10.1101/2020.03.28.013003

8. X. X. Zhou, W. F. Zeng, H. Chi, C. Luo, J. Zhan, S.-M. He, Z. Zhang, Anal. Chem. 2017, 89, 12690.

9. W. F. Zeng, X. X. Zhou, W. J. Zhou, H. Chi, J. Zhan, S.-M. He, Anal. Chem. 2019, 91, 9724.

10. Y. M. Lin, C. T. Chen, J. M. Chang, BMC Genomics 2019, 20, 906.

11. K. Liu, S. Li, L. Wang, Y. Ye, H. Tang, Anal. Chem. 2020, 92, 4275.

12. X. Zhao, J. Li, R. Wang, F. He, L. Yue, M. Yin, IEEE Access 2018, 6, 63560.

13. K. Yu, Q. Zhang, Z. Liu, Y. Du, X. Gao, Q. Zhao, H. Cheng, X. Li, Z.-X. Liu, Brief. Bioinform. 2019, bbz107, https://doi.org/10.1093/bib/bbz107

14. M. Wu, Y. Yang, H. Wang, Y. Xu, BMC Bioinformatics 2019, 20, 49.

15. B. Yu, Z. Yu, C. Chen, A. Ma, B. Liu, B. Tian, Q. Ma, Chemom. Intell. Lab. Syst. 2020, 200, 103999.

16. Y. Zhao, N. He, Z. Chen, L. Li, IEEE Access 2020, 8, 14244.

17. J. Chen, R. Yang, C. Zhang, L. Zhang, Q. Zhang, IEEE Access 2019, 7, 142368.

18. H. Long, B. Liao, X. Xu, J. Yang, Int. J. Mol. Sci. 2018, 19, 2817.

19. Z. Chen, X. Liu, F. Li, C. Li, T. Marquez-Lago, A. Leier, T. Akutsu, G. I. Webb, D. Xu, A. I. Smith, L. Li, K.-C. Chou, J. Song, Brief. Bioinform. 2019, 20, 2267.

20. Z. Chen, N. He, Y. Huang, W. T. Qin, X. Liu, L. Li, Genom. Proteom. Bioinf. 2018, 16, 451.

21. Y. Xie, X. Luo, Y. Li, L. Chen, W. Ma, J. Huang, J. Cui, Y. Zhao, Y. Xue, Z. Zuo, J. Ren, Genom. Proteom. Bioinf. 2018, 16, 294.

22. D. Wang, D. Liu, J. Yuchi, F. He, Y. Jiang, S. Cai, J. Li, D. Xu, Nucleic. Acids. Res. 2020, 48, W140.

23. E. Fenoy, J. M. G. Izarzugaza, V. Jurtz, S. Brunak, M. Nielsen, Bioinformatics 2019, 35, 1098.

24. F. Luo, M. Wang, Y. Liu, X. M. Zhao, A. Li, Bioinformatics 2019, 35, 2766.

25. K. E. Kirchoff, S. M. Gomez, bioRxiv 2020. https://doi.org/10.1101/2020.02.04.934216

26. I. Deznabi, B. Arabaci, M. Koyuturk, O. Tastan, Bioinformatics 2020, 36, 3652.

27. D. Wang, Y. Liang, D. Xu, Bioinformatics 2019, 35, 2386.

28. W. Ning, P. Jiang, Y. Guo, C. Wang, X. Tan, W. Zhang, D. Peng, Y. Xue, Brief. Bioinform. 2020, bbaa038.

29. K. Y. Huang, J. B. Hsu, T. Y. Lee, Sci. Rep. 2019, 9, 16175.

30. F. He, R. Wang, J. Li, L. Bao, D. Xu, X. Zhao, BMC Syst. Biol. 2018, 12, 109.

31. H. Fu, Y. Yang, X. Wang, H. Wang, Y. Xu, BMC Bioinformatics 2019, 20, 86.

32. L. Yan, J. Yi, C. Huang, J. Zhang, S. Fu, Z. Li, Q. Lyu, Y. Xu, K. Wang, H. Yang, Q. Ma, X. Cui, L. Qiao, W. Sun, P. Liao, Anal. Chem. 2021, 93, 11.

33. H. Dong, Y. Liu, W. F. Zeng, K. Shu, Y. Zhu, C. Chang, Proteomics 2020, 20, 21.

青莲百奥可提供一站式蛋白质组学、代谢组学、转录组学、多组学联合分析等科研服务。青莲百奥在质谱检测方面项目经验丰富，拥有国际的质谱平台，海归坐镇专业生信分析团队，助您在科研道路上乘风破浪，冲击高水平文章。更多技术服务敬请来电咨询：010-53395839。

「青莲聚焦」精准药物表征，助力新药研发!生物药表征之二

「青莲聚焦」历“九”弥新——FFPE蛋白质组学解析肺癌特征

更多资讯

在线沟通

我的询价

询价列表