表观转录组学,也称RNA表观遗传学,指转录后发生在RN碱基或核糖上的化学修饰。目前已经鉴定了170多种RNA修饰,包括N6-甲基腺苷(m6A)、N1-甲基腺苷(m1A)、N5-甲基胞嘧啶(m5C)、N7-甲基鸟苷(m7G)、假尿嘧啶(Ψ)、2'-O-甲基化(2'-O-Me或Nm)、N4-乙酰胞嘧啶(ac4C)和A-I等。它们广泛分布在真核生物、细菌和古细菌的rRNA、tRNA、mRNA和lncRNA等RNA上,参与调控RNA加工、运输、翻译和降解等过程,影响众多生理和病理过程。然而,大多数RNA修饰的发生、生物学作用和功能机制仍然不清楚。
2017年,宣佳佳博士搭建了RMBase v2.0平台,揭示了13个物种的RNA修饰图谱和复杂的转录后调控网络。
2023年,宣佳佳博士对RMBase平台进行了升级,发布了RNA修饰综合分析平台RMBase v3.0 (http://bioinformaticsscience.cn/rmbase/),也称为表观转录组百科全书(The Encyclopedia of RNA Epitranscriptome,ENCORE),通过开发新的标准化计算流程和方法,解码了包括哺乳动物、植物、脊椎动物、真菌、昆虫、后生动物、原生动物、细菌和病毒的62个物种的RNA修饰谱图、生物发生、相互作用组和功能。该研究已发表在Nucleic Acids Research,题为“RMBase v3.0: decode the landscape, mechanisms and functions of RNA modifications”。
RMBase v3.0提供了8个模块,分别用于探索和揭示RNA修饰的转录组图谱、生物发生、相互作用和调控功能。“RNA Modifications”模块使用新的标准化流程分析了数千个表观转录组数据集,揭示了62个物种的73种RNA修饰的转录组图谱,并为每个RNA修饰位点提供了基因注释、数据来源、RNA结构基序、物种保守性、生物发生机制等描述信息。“Genes”模块支持通过基因和转录本检索RNA修饰图谱和RNA修饰簇(Cluster),并为RNA修饰簇提供了详细了GO和KEGG注释。“Mechanisms”模块集成了23,382个酶特异性催化或snoRNA指导发生的RNA修饰位点,阐明了生物发生机制。重要的是,该模块为已知的向导snoRNA和孤儿snoRNA(Orphan snoRNA)鉴定了新的H/ACA snoRNA-Ψ和C/D snoRNA-Nm配对信息,为RNA修饰的发生机制提供了新的见解。“Co-localizatio”模块系统地阐述了12种细胞系中14种组蛋白修饰和6种RNA修饰之间的潜在相关性,从新的角度探究了表观转录组和表观基因组之间潜在的调控机制。“RMP”模块研究了146种RNA修饰蛋白(RMP)在18种癌症中的异常表达谱、突变图谱和共表达网。“Interactome”模块整合了人和小鼠等6个物种中73种RNA修饰与RBP结合事件、miRNA靶标和SNP以及SNV之间的相互作用关系。“Motif”模块阐明了从表转录组数据集中鉴定的11种RNA修饰的富集基序。“Tools”模块引入了一种新的基于网络的“modGeneTool”,用于对基因和转录本进行RNA修饰注释。
此外,RMBase 3.0还提供了两个用户友好的界面,“Download”和“Help”,允许用户下载数据库中存储的所有数据。用户可以从主页进入每个模块页面,深入了解RMBase提供的原始数据信息和汇总结果。总之,RMBase v3.0提供了全面的网页和图形可视化页面,为RNA修饰的发生机制和功能研究提供了丰富的资源和工具。
图:研究概要
利用ModFinder流程揭示62个物种的73种RNA修饰的转录组图谱
该研究收集了来自62个不同物种的数千个RNA修饰测序数据集,并整合了来自100多项研究和5个公共数据库中已知的RNA修饰。为了全面破译RNA修饰图谱,该研开发了一个统一的标准化流程“ModFinder”,通过分析1,880个表观转录组测序数据集,精确地检测了转录组范围的m6A修饰位点,并构建了基于公共数据库的RNA修饰比对和分布特征。经过严格的质量控制和过滤,为62个物种的73种RNA修饰鉴定了100多万个准确的RNA修饰位点,涵盖哺乳动物、植物、脊椎动物、真菌、昆虫、后生动物、原生生物、细菌和病毒(图1)。并且,该研究对鉴定的修饰位点进行了全面的注释,包括基因名称、基因类型、生物型特征、PWM评分、序列背景、RNA二级结构、生物发生机制和细胞来源等。
转录组中RNA修饰的图谱显示了不同RNA修饰的偏好。例如,与其他RNA相比,m6A修饰在mRNA中最丰富最保守。使用RMBase v3.0中的“modMetagene”生成的不同RNA修饰的元基因(metagene)图显示出不同的分布模式,这与先前的报道一致。总之,在各种RNA中观察到的不同RNA修饰的不同模式可能与其不同的生物发生机制和生物功能密切相关。
图1. RMBase v3.0的整体工作流程
RNA修饰簇的鉴定
鉴于基因内成簇的m6A修饰在生物过程中起着关键作用,因此该研究对RNA修饰的分布模式进行了全面分析,共发现了5,871个m6A簇、98个m5C簇、18个2′-O-Me簇、17个Ψ簇、以及59个A-I簇。m6A簇分布在mRNA、lncRNA和假基因(pseudogene)中,且主要在mRNA中。进一步的统计分析显示,单个mRNA可以包含一个或多个m6A簇,长度从120nt到3000nt不等。RMBase v3.0搭建了“modGene (Clusters)”网页用于展示这些RNA修饰簇,并用GO和KEGG进行了注释,为用户提供了一种便捷的方式来探索其生物学功能。
snoRNA可指导多种不同类型RNA发生Ψ和2′-O-Me修饰
真核生物Ψ和2 ' -O-Me修饰主要由H/ACA snoRNAs和C/D snoRNAs催化。该研究开发了新的流程“Sno2Psi”(图2),可系统地识别各种RNA分子上由snoRNA知道发生的Ψ。最终共检测到141个由人类snoRNA(包括82个已知的snoRNA和16个孤儿snoRNA)指导的位于rRNA、tRNA、mRNA、lncRNA和snRNA中的Ψ,包括94个新Ψ和47个已知的Ψ。
此外,该研究还开发了“Sno2Nm”标准化流程,可以系统地检测各种人类RNA分子上由C/D snoRNA指导的2′-O-Me位点。最终共鉴定了444个由snoRNA(包括144个已知的向导C/D snoRNA和29个孤儿C/D snoRNA)指导的2′-O-Me位点,这些位点位于rRNA、tRNA、lncRNA、mRNA、snRNA和假基因内。这些结果为Ψ和2′-O-Me修饰的生物合成提供了有价值的机制见解。
图2. 使用sno2Psi鉴定snoRNA指导的Ψ位点
组蛋白修饰与RNA修饰的共定位研究
该研究基于多项式回归开发了“modHistone”流程,对12个不同细胞系的14种组蛋白修饰的ChIP-seq数据和表转录组测序数据(m1A、m6A、m5C、m7G、Ψ和2 ' -O-Me)进行了综合分析。通过研究组蛋白修饰在RNA修饰位点附近的分布模式,推断出组蛋白修饰和RNA修饰之间的共定位关系。当组蛋白修饰在RNA修饰位点处出现显著富集峰时为正相关,当组蛋白修饰在RNA修饰位点处的分布出现明显的低谷为负相关。并使用Pearson相关系数进一步评估了两者之间潜在相关性的显著性。例如m6A和H3K36me3在染色体位置上显著的重叠与之前的研究结果一致。从该流程获得的结果已集成到“Co-localization (modHistone)”模块中。
图3. 组蛋白修饰和RNA修饰分布的相关性
RNA修饰蛋白在肿瘤中的表达谱和突变图谱的探索
RNA修饰蛋白(RMP)包括催化(Writer)、去除(Eraser)和识别(Reader)RNA修饰的RBP,其失调和突变对各种癌症的发生和发展具有深刻影响。为了确定RNA修饰在肿瘤中的潜在功能,研究人员系统地阐明了18种肿瘤中146种RMP的异常表达谱和突变模。差异表达谱显示,16种肿瘤中都存在RMP失调,85.6%(125/146)的RMP在大多数肿瘤中出现上调或下调,且往往更容易下调(图4)。
鉴于反复出现的体细胞拷贝数改变(SCNAs)和体细胞突变通常是阳性肿瘤选择的结果,该研究还通过深度挖掘来自TCGA的16种肿瘤的SCNA区域和体细胞突变,构建了146个RMP的突变图谱。通过进一步分析RMP的异常表达趋势与SCNA和体细胞突变类型,发现有38个RMP的异常表达趋势与SCNA类型趋势一致,有16个RMP具有显著体细胞突变。
虽然RMP在肿瘤中表现出频繁的异常表达和突变,但通过上述方法确定的SCNA驱动RMP和体细胞突变驱动RMP的数量相对有限(分别为26%和11%),这提示RMP的异常和突变可能作为调控因素而非驱动因素,在肿瘤的发展中发挥关键的调节作用。
图4. RNA修饰蛋白在肿瘤中失调表达谱和突变图谱
综上所述,RMBase v3.0采用多种标准化方法和流程为62个物种构建了73种RNA修饰的最全面的转录组图谱、潜在机制和生物功能。与其他数据库和之前的RMBase v2.0版本相比,RMBase v3.0有显著的进步,有望成为RNA表观转录组研究领域的标准资源库。
该成果于2023年11月13日发表在Nucleic Acids Research杂志,宣佳佳博士(现就职于暨南大学生科院)为第一作者和通讯作者,负责数据收集、流程开发、数据分析、数据库搭建和文章撰写,陈俐帆硕士、陈志荣博士生、庞俊杰博士生为主要协助者,其余作者参与了该工作。杨建华教授、屈良鹄教授和李斌副研究员为共同通讯作者。
RMBase v3.0免费获得链接:http://bioinformaticsscience.cn/rmbase
论文原文:
Xuan J, Chen L, Chen Z, Pang J, Huang J, Lin J, Zheng L, Li B, Qu L, Yang J. RMBase v3.0: decode the landscape, mechanisms and functions of RNA modifications. Nucleic Acids Res. 2024 Jan 5;52(D1):D273-D284. doi: 10.1093/nar/gkad1070. PMID: 37956310; PMCID: PMC10767931.
原文链接:https://www.ncbi.nlm.nih.gov/pmc/articles/PMC10767931/