近日,北京大学医学部精准医疗多组学研究中心黄超兰团队针对蛋白质新异形体的鉴定开发了整合新连接肽段鉴定策略的蛋白质基因组学分析流程,并应用于深度覆盖的人蛋白质组质谱数据集的分析,成功发现并验证了分别来自2个功能重要的基因NHSL1(编码NHS样蛋白1)和EEF1B2(编码真核翻译延伸因子eEF1B的亚基eEF1β)的3个新蛋白质异形体。该研究以“Proteogenomics integrating novel junction peptide identification strategy discovers three novel protein isoformsof human NHSL1 and EEF1B2”为题于2021年8月21日线上发表在Journal of Proteome Research期刊上。
基因转录产生的mRNA前体可以通过可变剪接产生不同的mRNA剪接异构体,这些mRNA可以翻译成序列不同的蛋白质,即蛋白质异形体。蛋白质异形体与许多疾病的病理机制密切相关,如癌症、多发性硬化症、心肌肥大、自身免疫病、糖尿病等,蛋白质异形体还被用作生物标志物和疾病治疗的靶标1,因此,开展针对蛋白质异形体的研究有着重要意义。蛋白质异形体的发现、注释与验证是其功能研究的基础,得益于高通量转录组深度测序技术以及可变剪接分析技术的迅速发展,人类基因组编码的蛋白质异形体已经得到了较充分的注释,但由于大多数基因都有一个主要的编码产物,而与疾病发生和蛋白功能调节密切相关蛋白质异形体往往表达量较低,所以,一部分低丰度的蛋白质异形体仍然可能没有被注释。
本研究首先聚焦了“新连接肽段”这一概念,即被内含子分隔开的新外显子和已注释外显子共同编码的肽段,新连接肽段可提供关于新可变剪接位点的信息,对于鉴定新蛋白质异形体至关重要。目前从质谱数据中挖掘新蛋白质异形体,主要是通过搜索转录组数据的三框翻译库。由于漏注释的蛋白质异形体往往缺少已知转录本和同源蛋白,传统的基于全基因组六框翻译库的蛋白质基因组学策略不能鉴定到新连接肽段,无法获知新可变剪接位点。因此,研究者首先提出了一种鉴定新连接肽段的策略,基本思路为:①假设一个基因可以编码一个新的蛋白质异形体,那么就意味着该基因中存在一个新的蛋白质编码区(CDS),这个CDS的具体位置是未知的,它可能出现在任意一个已注释CDS的5’端或3’端;②通过理论酶切的方式枚举所有可能的由新CDS与已注释CDS共同编码的新连接肽段,对于枚举出来的新连接肽段,由新CDS编码的氨基酸序列是未知的,用“X”表示;③对所有的人类已注释基因都做同样的处理,从而构建一个理论新连接肽段数据库;④对质谱数据集,采用多参数下的从头测序获取每张二级谱图的所有候选肽段,用以与理论新连接肽段数据库进行匹配,如果候选肽段在理论新连接肽段数据库中存在,那么它就被认为是该谱图对应的可能的连接肽段;⑤通过这种方式,可以将质谱数据中存在的所有可能的连接肽段枚举出来,然后可加入到已注释蛋白质组数据库中进行搜库,以进一步排除假阳性结果,鉴定高可信新连接肽段;⑥新连接肽段的来源分析,溯源新可变剪接位点。作者已将上述策略写成自动化软件CJunction,并上传至GitHub (https://github.com/CProteomics/CJunction),供广大读者直接使用。
图1. CJunction枚举质谱数据中可能存在的新连接肽段的原理图随后,研究者建立了针对新蛋白质异形体发现的整合新连接肽段鉴定策略的人蛋白质基因组学分析流程,并应用于一组深度覆盖的HeLa质谱数据集的分析,成功鉴定并验证了1个新连接肽段和2个由外显子单独表达的新肽段。通过生物信息学分析,最终发现并验证了分别来自2个基因NHSL1和EEF1B2的3个新的蛋白质异形体,依次命名为:NHS-like protein 1 isoform X15、NHS-like protein 1 isoform X16和elongation factor 1-beta isoform X2。值得注意的是,上述2个基因的新蛋白质异形体相较经典的编码产物分别有一个96个氨基酸和60个氨基酸长的新N端,这种序列差异暗示它们可能发挥着重要的不同功能,值得进一步探究。本文所提出的策略可应用于更多深度覆盖的蛋白质组质谱数据集中,未来有助于发现更多新的蛋白质异形体
图2.基因NHSL1表达的新蛋白质异形体的鉴定
北京大学医学部精准医疗多组学研究中心、北大-清华生命科学联合中心黄超兰教授为本文的通讯作者,北大-清华生命科学联合中心博士研究生何崔同为本文的第一作者。
原文链接:https://pubs.acs.org/doi/10.1021/acs.jproteome.1c00373