我校教授发现隐藏的蛋白质组：大量“非编码基因”可以表达蛋白质

发布者：生物化学与分子生物系发布时间：2019-08-27浏览次数：506

7月24日，我校生命科学技术学院何庆瑜教授、张弓教授、王通教授团队在Nucleic Acids Research上发表论文，发现了约4700个人类“非编码基因”实际上可能翻译成蛋白质，并提供了其中314个由长链非编码RNA (lncRNA) 表达的蛋白质证据。这些蛋白质不是小肽，而是含50个氨基酸以上的蛋白质，它们能稳定存在，并可以在癌症等病变中发挥重要作用。由于这些蛋白质长期以来被人们认为不会存在，所以被称为“隐藏的蛋白质组”（Hidden Proteome）。

人类基因组上已知大约有5万个基因，其中约2万个被标注为可以表达蛋白质的 “编码基因”，而另外3万个基因被标注为“非编码基因”(non-coding genes)。已有的报道中，除了部分非编码基因可以表达为小肽行使调控功能外，也有个别lncRNA被发现实际上能翻译成>50氨基酸的蛋白质，例如CLUU1, ESRG等，问题是，如果这种情况不是个案而是普遍存在的现象，则确实存在部分“编码基因”被错误地标注成了“非编码基因”，这将意味着人基因组需要被系统性地重新注释。

事实上，早在2013年，暨南大学团队便利用自主建立的翻译组测序技术（RNC-seq），在肺癌细胞中发现了1397个有可能被翻译的“非编码RNA”（Nucleic Acids Research 2013, 41, 4743）。经过6年的继续探索，他们从9株人细胞系中共鉴定到约4700种lncRNA正在被翻译，且可能以经典翻译起始方式翻译出>50氨基酸的蛋白质。利用目前公认的验证标准，他们提供了其中314个新蛋白质的证据。这些蛋白质是稳定存在的，并且有着明确的细胞定位，功能实验也证实它们以蛋白质形式（而非RNA形式）行使着明确的生物学功能。

为何这些“新蛋白”长期以来一直被认为不存在？这是因为人类基因组的注释本来就是算法预测的结果，而任何算法预测都不会完全准确。通常来说，编码基因都有多个外显子，而且在进化上相对保守，于是算法就根据这两个“经验”进行判定。但此次暨南大学团队发现的新蛋白，大部分只有一个外显子，而且进化上出现得非常晚，大量新蛋白只在灵长目才出现，连小鼠基因组中都没有。因此，算法可能错误地将这些编码基因归为了“非编码基因”。当然，这些新蛋白在转录、翻译、蛋白质各水平上表达量都较低，理化性质也比较特殊，因此也增加了检测的难度。

此项工作揭示了一个隐藏的蛋白质组，发现了大批以往不为人所知的新蛋白质，为人类基因组的可能注释错误提供了大规模的校正；这些新蛋白质可能含有与人类生理病理相关的重要分子，因而打开了一个新的人类蛋白质的宝库，开辟新的研究领域。该文的共同第一作者为我校生命科学技术学院的卢少华博士、张静博士和连新磊博士。

原文：https://academic.oup.com/nar/advance-article/doi/10.1093/nar/gkz646/5538014