推荐产品
公司新闻/正文
「青莲聚焦」历“九”弥新——揭秘AI 在蛋白质组学是怎样的存在?
人阅读 发布时间:2021-08-18 15:12
集齐
文末图片
即可召唤千元大礼
点击图片前情回顾
蛋白质组学最重要的一个领域是以质谱技术为核心,进行蛋白质的鉴定和定量。串联质谱技术的发展,让我们得以从全局角度研究不同生物系统的蛋白表达和翻译后修饰。随着质谱技术的完善与成熟,产出的数据量也呈现高速增长。近几年,越来越多的临床上百例样本被用于蛋白质组的鉴定和定量,使得蛋白质组的数据解析问题日益凸显。因此,在原始数据处理、数据质量控制、蛋白质和肽段的鉴定和定量、翻译后修饰的监测和复杂多样的下游分析等环节需要更复杂的算法,将大量数据转化为有用的生物信息。同时,和临床数据相结合的蛋白质组数据的解析,也为我们解决临床问题提供了更多的可能,如何将复杂的蛋白质组数据和临床数据相结合进行深入的挖掘,也成为了当下重要的研究课题。
人工智能(artificial intelligence, AI)在最近的20年里发展异常迅速,在计算机视觉、语音识别、自然语言处理、生物信息学和医疗图像分析等领域取得优越表现。机器学习是现代人工智能的重要分支,如支持向量机和随机森林等算法常应用于生物数据的分析。作为机器学习的后起之秀,深度学习是以人工神经网络为基础的一类算法和架构。深度学习区别于其他算法的特点之一,是它能自动从数据中学习特征和规律,而不需要手动创建特征(handcrafted feature engineering),即科学家常常基于专业知识或经验进行重要特征的提取。
人工智能早已在生命科学领域被广泛应用。在蛋白质组领域,人工智能也逐渐渗透到了蛋白质组的基础鉴定、定量技术,以及质谱信息和临床研究相结合的数据挖掘中。以下我们从蛋白质组的技术,以及与临床相结合的数据挖掘进行介绍。
PART.1
蛋白质组技术相关的数据预测
蛋白质组技术相关的数据预测,包括了蛋白质组实验各个步骤的数据解析(主要包括保留时间的预测,以及串联谱图的鉴定等),以及翻译后修饰和空间结构的预测等。
保留时间的预测
可用于预测保留时间的模型主要包括以下几种:
质谱串联谱图的预测
每次质谱实验可获得数十万张质谱谱图(MS/MS spectrum),每张谱图包含不同片段离子的质荷比(m/z)和定量值信息,这些信息只要决定于几个关键因素:1)质谱仪类型和肽段碎裂方法(如CID、HCD或ETD)及参数设定(如归一化碰撞能量,NCE);2)肽段的序列和修饰;3)肽段的前体电荷态。尽管肽段碎裂的机理很复杂,尚未得到清楚的解释,但在实验中可重现,通常也是可预测的。
利用序列预测谱图的工具从方法上可分为两类:一类是假说驱动的,如移动质子假说在串联质谱肽碎裂的研究中广泛被接受,MassAnalyzer就是其中之一;另一类是数据驱动的,一般采用深度学习或传统机器学习的算法。
肽段从头测序
肽段从头测序(de novo peptide sequencing)是深度学习在蛋白质组学中的一项突破性应用。从头测序在不依赖蛋白质数据库的情况下直接从谱图推断出序列。
通常,将谱图看作图片,序列看作图片的文字描述,以编码器-解码器架构(Encoder-decoder architecture)设计深度学习模型。典型的例子是DeepNovo和DeepNovo-DIA。
翻译后修饰的预测
目前已经确定的翻译后修饰(post-translational modification, PTM)方式超过400种, 常见修饰过程有磷酸化、泛素化、甲基化、乙酰化、糖基化、SUMO化、亚硝基化、氧化等。PTM极大地增加了细胞蛋白质组复杂性和蛋白质功能多样性,在很多生物过程中扮演着重要角色。机器学习因为其灵活性和实际表现较好,很早就应用于PTM预测。
深度学习在PTM预测上的应用可分为两类:1)预测某种PTM(如磷酸化)的修饰位点,即某位点是否会发生修饰;2)酶特异性预测,即某位点是否会被特定酶(如某一种磷酸化激酶)修饰。
蛋白质结构预测
蛋白质结构一定程度上决定了蛋白质功能。在蛋白质设计和药物筛选等研究中,利用氨基酸序列预测蛋白质空间结构起重要作用。二级结构是指规则的局部结构模式,通常包含为三种类型,即alpha螺旋、β折叠和β转角。二级结构预测可以辅助同源序列比对。蛋白质通过卷曲折叠会构成三维结构,蛋白质的功能正由其结构决定。了解蛋白质结构有助于开发治疗疾病的药物。AlphaFold是Google旗下DeepMind开发的一款人工智能程序,它采用深度学习算法通过蛋白质序列来预测蛋白质结构,是目前为止秀的蛋白质结构预测程序。
PART.2
蛋白质组与临床数据结合的数据挖掘
蛋白质组数据只有一小部分用于当前经典的蛋白质鉴定和定量,利用AI技术的特性,结合临床数据与复杂的质谱数据进行深入的挖掘,有望能获得更多的信息。目前已经有不少工作在这领域进行了尝试,我们介绍两个代表性的案例,一个是基于MALDI-TOF的数据进行临床样本的分类,另外一个是对LC-MS的数据分析进行癌和癌旁的分类。
案例一:基于机器学习的COVID-19检测
Ling Yan等开发了一种基于MALDI-TOF MS的高通量血清肽组分析方法,用于有效检测 COVID-19[32]。分析了146名COVID-19患者和152名对照病例(包括 73 名具有相似临床症状的非COVID-19患者、33名结核病患者和46名健康人)的血清样本。在 MS 数据处理和特征选择之后,使用八种机器学习方法构建分类模型。具有25个特征峰的逻辑回归机器学习模型在检测COVID-19时实现了准确度(99%),98%的灵敏度和 100%的特异性。这一结果证明了在大量人群中筛查、常规监测和诊断COVID-19的方法的巨大潜力。
案例二:基于深度学习的肿瘤分类
两篇文章的研究思路是类似的。由于特征峰过多,首先要做的是降维,即筛选数据特征。再构建恰当的数据集用于模型训练,获得AI分类器。基于交叉检验对多个模型做比较,得到最优分类模型和方法。
两个案例也存在不同点。案例一基于机器学习方法,采用三种算法筛选特征,再求并集,最终只选取了排名最靠前的25个特征;而案例二基于CNN深度学习方法,采用一种算法和其他辅助条件筛选2048个特征,数据空间的维度更高。
总结
集齐
下方图片
即可召唤千元大礼
参考文献
1. C. Ma, Y. Ren, J. Yang, Z. Ren, H. Yang, S. Liu, Anal. Chem. 2018, 90, 10881.
2. S. Gessulat, T. Schmidt, D. P. Zolg, P. Samaras, K. Schnatbaum, J. Zerweck, T. Knaute, J. Rechenberger, B. Delanghe, A. Huhmer, U. Reimer, H.-C. Ehrlich, S. Aiche, B. Kuster, M. Wilhelm, Nat. Methods. 2019, 16, 509.
3. S. Tiwary, R. Levy, P. Gutenbrunner, F. Salinas Soto, K. K. Palaniappan, L. Deming, M. Berndl, A. Brant, P. Cimermancic, J. Cox, Nat. Methods. 2019, 16, 519.
4. S. Guan, M. F. Moran, B. Ma, Mol. Cell. Proteomics. 2019, 18, 2099.
5. Y. Yang, X. Liu, C. Shen, Y. Lin, P. Yang, L. Qiao, Nat. Commun. 2020, 11, 146.
6. B. Wen, K. Li, Y. Zhang, B. Zhang, Nat. Commun. 2020, 11, 1759.
7. R. Bouwmeester, R. Gabriels, N. Hulstaert, L. Martens, S. Degroeve, bioRxiv 2020. https://doi.org/10.1101/2020.03.28.013003
8. X. X. Zhou, W. F. Zeng, H. Chi, C. Luo, J. Zhan, S.-M. He, Z. Zhang, Anal. Chem. 2017, 89, 12690.
9. W. F. Zeng, X. X. Zhou, W. J. Zhou, H. Chi, J. Zhan, S.-M. He, Anal. Chem. 2019, 91, 9724.
10. Y. M. Lin, C. T. Chen, J. M. Chang, BMC Genomics 2019, 20, 906.
11. K. Liu, S. Li, L. Wang, Y. Ye, H. Tang, Anal. Chem. 2020, 92, 4275.
12. X. Zhao, J. Li, R. Wang, F. He, L. Yue, M. Yin, IEEE Access 2018, 6, 63560.
13. K. Yu, Q. Zhang, Z. Liu, Y. Du, X. Gao, Q. Zhao, H. Cheng, X. Li, Z.-X. Liu, Brief. Bioinform. 2019, bbz107, https://doi.org/10.1093/bib/bbz107
14. M. Wu, Y. Yang, H. Wang, Y. Xu, BMC Bioinformatics 2019, 20, 49.
15. B. Yu, Z. Yu, C. Chen, A. Ma, B. Liu, B. Tian, Q. Ma, Chemom. Intell. Lab. Syst. 2020, 200, 103999.
16. Y. Zhao, N. He, Z. Chen, L. Li, IEEE Access 2020, 8, 14244.
17. J. Chen, R. Yang, C. Zhang, L. Zhang, Q. Zhang, IEEE Access 2019, 7, 142368.
18. H. Long, B. Liao, X. Xu, J. Yang, Int. J. Mol. Sci. 2018, 19, 2817.
19. Z. Chen, X. Liu, F. Li, C. Li, T. Marquez-Lago, A. Leier, T. Akutsu, G. I. Webb, D. Xu, A. I. Smith, L. Li, K.-C. Chou, J. Song, Brief. Bioinform. 2019, 20, 2267.
20. Z. Chen, N. He, Y. Huang, W. T. Qin, X. Liu, L. Li, Genom. Proteom. Bioinf. 2018, 16, 451.
21. Y. Xie, X. Luo, Y. Li, L. Chen, W. Ma, J. Huang, J. Cui, Y. Zhao, Y. Xue, Z. Zuo, J. Ren, Genom. Proteom. Bioinf. 2018, 16, 294.
22. D. Wang, D. Liu, J. Yuchi, F. He, Y. Jiang, S. Cai, J. Li, D. Xu, Nucleic. Acids. Res. 2020, 48, W140.
23. E. Fenoy, J. M. G. Izarzugaza, V. Jurtz, S. Brunak, M. Nielsen, Bioinformatics 2019, 35, 1098.
24. F. Luo, M. Wang, Y. Liu, X. M. Zhao, A. Li, Bioinformatics 2019, 35, 2766.
25. K. E. Kirchoff, S. M. Gomez, bioRxiv 2020. https://doi.org/10.1101/2020.02.04.934216
26. I. Deznabi, B. Arabaci, M. Koyuturk, O. Tastan, Bioinformatics 2020, 36, 3652.
27. D. Wang, Y. Liang, D. Xu, Bioinformatics 2019, 35, 2386.
28. W. Ning, P. Jiang, Y. Guo, C. Wang, X. Tan, W. Zhang, D. Peng, Y. Xue, Brief. Bioinform. 2020, bbaa038.
29. K. Y. Huang, J. B. Hsu, T. Y. Lee, Sci. Rep. 2019, 9, 16175.
30. F. He, R. Wang, J. Li, L. Bao, D. Xu, X. Zhao, BMC Syst. Biol. 2018, 12, 109.
31. H. Fu, Y. Yang, X. Wang, H. Wang, Y. Xu, BMC Bioinformatics 2019, 20, 86.
32. L. Yan, J. Yi, C. Huang, J. Zhang, S. Fu, Z. Li, Q. Lyu, Y. Xu, K. Wang, H. Yang, Q. Ma, X. Cui, L. Qiao, W. Sun, P. Liao, Anal. Chem. 2021, 93, 11.
33. H. Dong, Y. Liu, W. F. Zeng, K. Shu, Y. Zhu, C. Chang, Proteomics 2020, 20, 21.