A. 国家基因库主任级别
国家级别
基因是万物生存发展之源,生物体的生、长、衰、病、老、死等一切生命现象都与基因息息相关。同时,基因资源也是国家的重要战略资源,保存、保护和合理利用基因资源将成为未来维护国家安全、打造核心竞争力的坚实基础和有效保障。
2011年国家发展和改革委员会、财政部、工业和信息化部、卫生健康委员会(原卫生部)四部委批复依托深圳华大生命科学研究院(原深圳华大基因研究院)建设深圳国家基因库(亦称国家基因库,英文名称:China National GeneBank,CNGB),于2016年建成使用。随着“政府所有、委托运营、独立运作”的运行机制调整,目前由深圳国家高技术产业创新中心统筹指导,过渡期委托深圳华大生命科学研究院开展深圳国家基因库运营工作。[15]它是我国首个国家级综合性基因库,也是世界领先的综合性生物遗传资源基因库。支撑我国生命科学和生物经济发展,对人类社会的健康、可持续发展具有着重要的意义。
中文名
国家基因库
外文名
China National GeneBank
建设规模
116,000平米
成立时间
2016年9月22日
级别
国家级
相关视频
1.3万播放|00:58
数字形式存储超65PB基因数据!中国,拥有世界最大综合性基因库→
央视财经
5055播放|00:56
创新:深圳国家基因库,试图容纳整个世界的物种,厉害了
口述经典
2.5万播放|03:38
中国在大山里建设了一座超级工程,国家基因库
热心市民Z先生TOP
2.5万播放|02:31
我国第一个国家基因库落户深圳,基因库有多牛,科普速成
热剧十三郎
6653播放|03:35
中国国家基因库,破解困扰世界多年难题,植物领域研究跨出一大步
楠竹一
1.1万播放|02:36
中国首个国家基因库开始运营,里面都有啥,你想不到的都有
热剧十三郎
9927播放|01:59
基因资源已成为重要的国家战略资源,国家基因库,到底有多神秘
热剧十三郎
相关星图
广东省第一批全国科普教育基地
共53个词条
4741阅读
广东省水文局韶关水文分局
广东省水文局韶关水文分局,位于广东省。
中广核大亚湾核电基地
中广核大亚湾核电基地,位于广东省。
广州电力展示馆
广州电力展示馆由广州电力早期办公场所——拥有80多年历史的“广州市历史建筑”华安楼改造而成,是全国少有的利用历史建筑进行
查看更多
地理位置及建筑机构介绍业务功能学术交流和科普活动所获荣誉TA说
地理位置及建筑
国家基因库基地位于深圳市大鹏新区“禾塘仔”地块,建设规模约116,000平米,分两期建成。国家基因库依山而建,环境优美,建筑设计缘于一期《科学》杂志封面的哈尼梯田,这期杂志刊发了2002年中国科学家在全球首次破译水稻基因组的成果,具有里程碑式的意义。
同时,国家基因库在建筑设计时将自然生态的原有面貌和建筑本身的功能性需求融合在一起,打造了一个与外界相对独立、层层梯田种植屋面、混泥土本色与垂直绿化结合的生态建筑。
机构介绍
国家基因库是服务于国家战略的国家级公益性创新科研及产业基础设施建设项目,也是深圳市重大科技基础设施之一,它将建设成为引领我国生命科学和生物经济发展的战略性科技力量。
国家基因库是世界领先的国家级综合性基因库,具备遗传资源的“存、读”能力,即存储生物资源和基因数据、对遗传信息进行读取及运用,并以此为基础搭建起支撑生命科学研究与生物产业创新发展的公益性、开放性、引领性、战略性科技平台。
国家基因库理事会是国家基因库的重大事项决策机构和监督机构。
业务功能
国家基因库业务架构由生物样本库、生物信息数据库、动植物资源库、数字化平台组成。以生物资源的存、读能力为基础,实现样本、数据、活体全贯穿,搭建起公益性、开放性、支撑性、引领性服务平台,促进基因组学在精准医学、精准健康、未来农业、海洋开发、微生物应用等方面的前沿探索与产业转化,真正实现基因资源的共有、共为、共享。国家基因库响应国家政策,在符合国家相关法律法规和管理办法并参照相关国际公约与惯例的基础上,推动行业内的学术交流和样本/ 数据资源共享,促进生命资源的科学合理应用,实现全球资源 保护和战略性应用。[1][2]
国家基因库生命大数据平台(China National GeneBank Database)[3]是面向全球科研工作者提供生物大数据共享和应用服务的统一平台,整合全球公开生命数据,实现数据从活体到样本再到组学数据的全过程、全贯穿,形成融合多研究领域、多数据类型、多分析维度的超大型科研数据系统,集归档存储、知识搜索、分析计算、管理授权等于一体,致力于生物信息数据在生命科学与生物产业发展中创造价值。[1][4]国家基因库(CNGB)与国际生物和环境样本库协会(ISBER)、全球生物多样性联盟(GGBN)以及中国科学院海洋研究所、中国科学院昆明动物研究所、北京重大疾病临床数据和样本资源库、深圳超算中心等合作。[5]
国家基因库
样本——测序数字化——数据全贯穿:连接表型和基因型,支撑健康医学、农业育种领域科学研究。
数据高效汇交与安全共享:资源二次挖掘,打破生物资源孤岛,促进资源共享。
数据整合挖掘,形成知识库:促进数据应用转化,推动下游生物行业产品研发。[14]
学术交流和科普活动
2016年9月22日位于深圳大鹏新区的国家基因库正式启用。[6]国家基因库利用生命科学和生物信息数据科学的前沿技术,联合行业领先机构和国内外标准化组织,共同建立样本、数据、资源等国际、国内相关标准,引领行业规范有序的发展,为生命科学研究、医学健康和生物产业发展提供基础支撑。[7]国家基因库充分利用自身的平台实力及行业影响力,为科研工作者、相关产业的从业者和普通民众创造学术交流、人才培训、科普教育的广阔空间与宝贵机遇,促进学术研究成果的共享、传播、交流和应用,提升领域内人才的理论与实践能力,培养民众的科学态度与科学精神。
B. 肺癌研究进展 | Cell及其子刊上那些关于肺癌的多组学研究
肺 癌 是 全 球 发 病 率 和 致 死 率 最 高 的 恶 性 肿 瘤 ,据2018年全球肿瘤统计分析报告显示,全球肺癌的男女发病率分别为:年龄标化率(ASR)1.5/10万和14.6/10万;死亡率为ASR 27.1/10万和11.2/10万。
关于肺癌的多组学研究为科研人员和临床医生寻求更精确的诊断和治疗策略提供参考。7月9日出版的《 Cell 》连发三篇关于肺腺癌的蛋白组学+基因组的综合研究成果,之前 Cell 子刊《 Cell Metabolism 》也发表过关于小细胞肺癌的转录组+代谢组综合研究成果,这些多组学研究具有极为重要的临床指导意义。
研究人员利用蛋白质组学、磷酸蛋白质组学和基因组学数据对103例肺腺癌(LUAD)及其配对的非癌性邻近组织(NATs)进行了综合组学分析:
揭示了癌症相关的特征,例如肿瘤相关的蛋白质变体,独特的蛋白质组学特征以及早期患者或具有EGFR和TP53突变的患者的临床结局;
基于蛋白质组的LUAD分层显示出与不同的临床和分子特征相关的三种亚型(S-I,S-II和S-III);
发现了潜在的药物靶标,并验证了HSP 90b的血浆蛋白水平是独立队列中LUAD的潜在预后生物标志。
原始蛋白质组学数据已上传至iProx,项目编号:IPX0001804000.
原始转录组数据已存入GEO,数据编号:GSE140343.
由于原始基因组数据的公开共享受到中国人遗条例限制,外显子组测序的详细结果见表S2。
研究人员对110个LUAD和101个NATs进行了全面的组学表征,包括基因组学,表观基因组学,深度蛋白质组学,磷酸蛋白质组学和乙酰蛋白质组学。
揭示了包括拷贝数、体细胞突变等基因层面改变的下游生物学功能;
通过磷酸化蛋白质组学方式鉴定出ALK-fusion作为诊断标记物和靶点的潜力;
鉴定得到了多个候选药物靶点:PTPN11(EGFR)、SOS1(KRAS),中性粒细胞脱颗粒(STK11);
LUAD肿瘤标记物蛋白磷酸化和乙酰化修饰也可能参与其中。
原始蛋白质组学数据可通过CPTAC数据门户网站获得:
👉 https://cptac-data-portal.georgetown.e/cptac/s/S056
基因组和转录组数据文件可在GDC获取:
👉 https://www.ncbi.nlm.nih.gov/projects/gap/cgi-bin/study.cgi?study_id=phs001287.v5.p4.
研究人员在中国台湾收集了103名未经治疗的LUAD患者肿瘤组织和NATs,并进行了全外显子测序、RNA测序、蛋白质组学和磷酸化蛋白质组学检测。
首次展现了东亚人群中非吸烟LUAD患者的蛋白质基因组学景观,鉴定出23145个非同义体细胞单核苷酸变异(SNVs)。在转录组水平上,共量化了30155个RNA。在蛋白组水平上,超过10000个独特的蛋白质和20000个磷酸酶被量化;
突变特征分析揭示了年龄和性别相关的突变机制,高APOBEC突变特征存在于74%的年轻女性(≤60岁)和所有无EGFR突变的女性中,而男性患者中没有观察到类似的趋势;
通过蛋白质组特征对LUAD早期阶段进行临床分类;
找到了一个有潜力作为非小细胞肺癌早期检测和治疗的生物标志物MMP11。
蛋白质组学和磷蛋白组学分析的原始数据文件和处理后的数据已上传至NCI蛋白质组学数据共享平台:
👉 https://pdc.cancer.gov/pdc/study/PDC000219
👉 https://pdc.cancer.gov/pdc/study/PDC000220
研究人员运用代谢组和转录组等多组学研究手段,首先对小细胞肺癌细胞系,继而对基因工程小鼠和临床原发肿瘤组织等进行分析。
发现ASCL1低表达的小细胞肺癌细胞中嘌呤核苷酸的含量显著上升,同时伴随嘌呤合成通路中相关基因,特别是嘌呤合成途径中的关键限速酶—次黄嘌呤脱氢酶(IMPDH)的表达显著上调。代谢流分析结果显示,嘌呤合成途径的反应速率显著增加;
进一步的机制研究表明,ASCL1低表达的小细胞肺癌伴随了致癌基因MYC高表达,MYC作为转录因子通过激活IMPDH的转录从而促进了嘌呤合成速率;
在裸鼠移植瘤模型和肿瘤细胞中,抑制IMPDH能够降低ASCL1低表达的小细胞肺癌细胞和肿瘤组织的生长速度,提示IMPDH是一个潜在新型药物靶点。
研究相关资源和试剂的更多信息可向研究的主要联系人申请:[email protected].
国家基因库序列归档系统(CNSA) 可实现【基因组】和【代谢组】数据的一站式归档服务 (蛋白组数据归档功能正在开发中,敬请期待)。
👉 操作指引:登录CNGBdb → 导航栏点击 数据提交 → 进入CNSA:导航栏点击 提交入口 或 在页面点击 提交 按钮 → 数据提交页面可根据数据类型完成数据提交。
数据提交过程遇到任何问题都可直接联系[email protected]。
CNGBdb 的数据[存]储功能由旗下的国家基因库序列归档系统(CNSA,db.cngb.org/cnsa)负责,这是国内首个实现在线批量上传和审编的组学数据归档库,可支撑全球科研成果发表。截至2021年3月4日,CNSA已支持论文发表228篇,发表期刊127个,包括 The Lancet、Nature、Science、Cell 等。
首发公号:国家基因库大数据平台
参考文献
[1] 周彩存, 王洁, 步宏, 等. 中国非小细胞肺癌免疫检查点抑制剂治疗专家共识 (2019 年版)[J]. Chinese Journal of Lung Cancer, 2020, 23(2): 65.
[2] Xu J Y, Zhang C, Wang X, et al. Integrative proteomic characterization of human lung adenocarcinoma[J]. Cell, 2020, 182(1): 245-261. e17.
[3] Gillette M A, Satpathy S, Cao S, et al. Proteogenomic characterization reveals therapeutic vulnerabilities in lung adenocarcinoma[J]. Cell, 2020, 182(1): 200-225. e35.
[4] Chen Y J, Roumeliotis T I, Chang Y H, et al. Proteogenomics of Non-smoking Lung Cancer in East Asia Delineates Molecular Signatures of Pathogenesis and Progression[J]. Cell, 2020, 182(1): 226-244. e17.
[5] Huang F, Ni M, Chalishazar MD, et al. Inosine Monophosphate Dehydrogenase Dependence in a Subset of Small Cell Lung Cancers. Cell Metab. 2018;28(3):369-382.e5.
C. 什么是基因大数据分析
基因大数据分析就是像佳学基因那样通过分子生物学、分子病理学、分子药理学的最新内科技建立《人的基因容序列变化与人体疾病表征》数据库,再加上临床样本的收集、优化和调整,可以对人任何一种疾病找到基因的原因,对任何一种基因序列预测人体可能出现的疾病和能力变化。通过佳学基因大数据分析可以进行人的天赋基因解码、人的健康成长呵护基因解码、致病基因鉴定基因解码、用药指导基因解码、婚恋咨询基因解码和完美宝贝基因解码。
D. 国家基因组科学数据中心怎么用
sisichen �
关注
国家基因组科学数据中心(NGDC)---组学原始数据如何上传GSA 原创
2022-04-25 14:44:31
sisichen �
码龄4年
关注
文章目录
前言
一、什么是NGDC?
二、NGDC的发展历程
三、什么是GSA?
四、为什么选择上传数据到GSA?
五、如何上传测序原始数据至GSA?(重点!!附详细步骤!!)
1. 准备要上传的数据
2. 计算MD5码
3.进入NGDC主页,登入账户
4. 填写数据信息
第一步:建立Bioproject。
第二步:建立BioSample。
第三步:创建GSA。
进入GSA数据库
新建GSA
填写信息
下载表格文件
5. 数据上传:
(1). 通过FTP软件 上传(上传需要流量!!如果小数据可以用)
(2). 通过服务器上传(推荐!!):如果实验室有服务器的话,推荐服务器上传,步骤如下:(服务器上要先安装ftp )
(3)邮寄硬盘
6.等待审核
总结
前言
在发表文章之前我们需要将测序的原始数据上传到一个公共库,并在文中提供accession number,实现数据的公开共享,这是国际惯例。以前我们上传数据时只能上传到美国国立生物技术信息中心(NCBI)、欧洲生物信息学研究所(EBI)、日本核酸数据库(DDBJ),现在中国科学院北京基因组研究所(国家生物信息中心)国家基因组科学数据中心 (CNCB-NGDC)—中国的 “NCBI” 已经建立并日渐完善。组学原始数据归档库(GSA)是组学原始数据汇交、存储、管理与共享系统,是国内首个被国际期刊认可的组学数据发布平台。GSA已获得多个国际期刊认可,并已被国际著名出版商Elsevier收录为指定的基因数据归档库,其权威性得到国内外100余家学术杂志的认可。GSA已通过FAIRsharing认证,获得Wiley出版集团认可,因此我们不用担心上传数据到GSA不被期刊认可,也不用再舍近求远上传数据到NCBI,作为中国人,我们一定要支持我们NGDC中的数据库。本文介绍了如何上传测序原始数据到GSA,附详细操作步骤。
一、什么是NGDC?
国家基因组科学数据中心(https://ngdc.cncb.ac.cn/;NGDC)于2019年6月5日经科技部、财政部通知公布,由鲍一明研究员作为学术带头人,以中国科学院北京基因组研究所(国家生物信息中心)作为依托单位,联合中国科学院生物物理研究所和中国科学院上海营养与健康研究所共同建设。中心面向我国人口健康和社会可持续发展的重大战略需求,建立生命健康组学大数据储存、整合与挖掘分析研究体系,研发生物多样性与健康大数据汇交、应用与共享平台,发展大数据系统解析与转化应用的新技术和新方法,建设支撑我国生命科学发展、国际知名的基因组科学数据中心。
2020年中心开发了8个全新数据库 (2019nCoVR,Aging Atlas,BrainBase,CGIR,GTDB,LncExpDB,scMethBank和TransCirc),更新和丰富了多个核心数据库资源 (BioProject,BioSample,GSA,GWH,GVM,GEN和生物多样性资源等),涉及疾病、衰老、调控和生物多样性等多个前沿领域,初步形成我国生物数据安全汇交管理和多组学数据平台的国家中心数据资源体系。数据库建设整体情况以“Database Resources of the National Genomics Data Center, China National Center for Bioinformation in 2021”为题在国际学术期刊《核酸研究》(Nucleic Acids Research)在线发表。
NGDC的主要致力于以下三方面的工作:①围绕中国人群普惠健康的精准医学相关组学信息资源,完善建立中国人群基因组遗传变异图谱,形成中国人群精准医学信息库;②基于高通量测序的海量原始组学数据资源,建立符合国际标准的原始组学数据归档库,形成中国原始组学数据的共享平台;③围绕国家重要战略生物资源,建立海量组学数据的整合、挖掘与应用体系,形成综合性的多组学数据库系统。
在这里插入图片描述
常用资源:
生物项目数据库(BioProject):是收集与共享生物学研究项目信息的资源库,涵盖的项目类型包括常规组学研究的基因组、转录组、表观组和宏基因组等,并针对大型项目提供高效、安全、专业化的项目分级管理。
生物样本数据库(BioSample):是收集与与共享生物样品信息的资源库,提供生物样品单结构化描述信息递交和发布,涵盖的样品类型包括人、动物、植物、微生物(含环境微生物)、病毒等,提供批量数据上传和离线数据递交服务。通常一个BioProjiect对应一个BioSample,如果多个样本可以批量设置BioSample,也就是一个BioProject对应多个Biosample。
组学原始数据归档库(GSA):植物/动物
组学原始数据归档库 (GSA-Human):人类遗传资源数据,需要备案
多元数据归档库(OMIX):如要共享的代谢组数据,影像,Excel等,上述两个库不能存放的,上传到这个库。
生物工具库(Biocode):存放代码,部分替代github
基因组序列数据库(GWH):类似于NCBI 的genebank, 基因组拼接组装完的数据可以上传到这里
基因组变异库(GVM):等同于NCBI DDSNP(19年后只接受人的),包括人动物作物的单核苷酸多态性变异,call SNP 变异的数据上传这里
生物数据库目录(DBCommons ):根据引用(平均年引用)评价一些数据库,如DVide和KEGG等
基因表达数据库(GEN):等同于国际上的GO
甲基化数据库(MethBank)
二、NGDC的发展历程
生物信息的数据要海量整合后才会有价值,割裂的数据库只完成了“存”却难以走向“使用”, 为了解决我国基因组数据存管用难、数据流失严重、核心基因组科学信息资源先“出口”再“进口”的问题,国家基因组科学数据中心应运而生。从2016年到2022年,短短6年的时间,NGDC已经发展成为全球主要的生物数据中心。
在这里插入图片描述
在这里插入图片描述
三、什么是GSA?
组学原始数据归档库(Genome Sequence Archive,简称GSA)是组学原始数据汇交、存储、管理与共享系统,是国内首个被国际期刊认可的组学数据发布平台, 主要汇交实验信息(Experiment Metadata)、测序反应信息(Run Metadata)信息以及归档测序文件数据(Sequence Data file)。
GSA的系统建设遵循了国际核酸序列共享联盟(InternationalNucleotide Sequence Database Collaboration,INSDC)的相关标准,并作为INSDC的补充,旨在减轻国际相关数据库数据存贮及数据传输的压力;立足中国,服务全球。由于中国国际网络出口带宽的瓶颈问题,数据传输效率低下。以中国科学院北京基因组研究所的150Mbs出口带宽为例,向NCBI数据库递交1TB的数据需要花费2周以上的时间。GSA的建立可以让国人享受更快的传输速度,更贴心的服务!
截至2022年4月,GSA已为国内外多个单位提供免费数据存储服务,累计用户递交项目信息超过572,259个,用户提交的测序数据量超过13.23PB。
在这里插入图片描述
四、为什么选择上传数据到GSA?
上传GSA数据库的几大理由:
1.符合数据战略安全要求;
2. 是国内首个被国际期刊认可的组学数据发布平台;
3.界面可切换为中文,契合大家阅读习惯;
4.人性化设置,例如公布日期可随时修改,数据未公开前可一键分享给审稿人查看,数据上传信息修改、增添方便等等;
5.多途径协助数据上传, 上传数据快 (qq群全天候解答疑问,优盘寄送或工作人员上门拷贝等绿色上传通道)。
3. GSA立足于中国,极大方便了中国科学家的数据递交,同时遵循INSDC联盟数据标准,立心于服务全球,为全世界的科研领域共享贡献数据。
简单来说就是:有底气、被认可、更快、更方便
五、如何上传测序原始数据至GSA?(重点!!附详细步骤!!)
1. 准备要上传的数据
原始数据,fastq、bam文件,网站只接受gzip和bzip2压缩格式
在这里插入图片描述
2. 计算MD5码
MD5码主要是用来校验递交的数据在网络传输过程中是否损坏或丢包,它是由数字和英文字母组成的长度为 32 的定长字符串,一般测序公司返回的数据中会有。我们也可以通过以下方式进行计算MD5码:
Linux 用户使用 $ md5sum 命令计算;(输入md5sum 加文件名)
代码如下(示例):
在这里插入图片描述
Mac 用户使用$ md5 命令计算;
Windows 用户使用第三方工具进行计算,例如 winmd5free。
3.进入NGDC主页,登入账户
首先进入我们NGDC主页:(https://ngdc.cncb.ac.cn/)–点击登入;
在这里插入图片描述如果是第一次使用要注册账户:
在这里插入图片描述在这里插入图片描述
4. 填写数据信息
账户注册完以后,就可以登入账户按照以下原则进行数据信息录入。简单来说就是填写你要上传数据的信息,分为以下三步①先创建BioProject ②创建BioSample ③创建GSA(先创建experiment 再创建run)。只填写*的必填部分即可。可能大家不太理解BioProject, BioSample,experiment, run。举个例子,假如我有以四个时间点Ck,12h,24h,48h,每个时间点三个生物学重复,取样测的转录组数据。那么我就有12个样本BioSample,12个experiment,12个run,或者一个experiment对应多个run也可以。
E. 大数据首次揭示中国人基因特征,具有怎样的意义
10月10日,华大在深圳国家基因库正式对外发布一项迄今为止最大规模的中国人基版因组学大数据研究权成果。
研究发现,中国人血浆的病毒组与欧洲人存在比较大的差异,比如。
在欧洲人群中排名前两位的分别是与皮肤急疹相关的疱疹病毒7型及与鼻咽癌相关的疱疹病毒4型,而在我国人群中排在首位的则是乙肝病毒,其感染发生率大约为2.5%。
F. Nature子刊综述帮你总结知识点:癌症中的RNA,每个都是研究热点
基因表达紊乱是癌症的一个主要标志。事实上,转录因子活动的改变已被证明是一些癌症最常见亚型的驱动因素。RNA对基因表达至关重要,无论是以蛋白编码RNA(mRNAs)的形式,还是以参与和调节转录的非编码RNA形式(lncRNAs或snRNA)、剪接(snRNAs)和翻译(核糖体RNAs、tRNAs和microRNAs)。 最近的证据表明,RNA的加工在癌症中被系统改变,证明RNA对肿瘤发生、生长和进展的重要影响。
2020年10月,来自澳大利亚的研究人员在《 Nature Reviews Cancer 》发表题为“RNA in cancer”的综述, 讨论了编码和非编码RNA的加工或活性改变如何促进肿瘤的发生、生长和进展,强调了RNA在癌症中的既定角色(miRNA和lncRNA)和新兴角色(选择性mRNA加工和circRNA)以及它们对癌症的作用机制。
一旦RNA聚合酶II合成了 mRNA ,它必须首先剪接并进一步加工成成熟的转录物,然后从细胞核输出到细胞质,转化为蛋白质。这些相互连接的处理步骤是由许多大分子复合物完成的,例如剪接体和转录-输出复合物TREX和TREX2。
在生理条件下,基因表达也可以通过一些 非编码RNA ,包括miRNAs、lncRNAs和circRNAs来调节。通常,miRNAs通过加速靶基因的去乙酰化和降解来负调控基因的表达,而lncRNAs则通过作为调节蛋白复合物的支架、定位到基因组DNA或改变基因组结构来调节顺式或反式的基因表达。
许多miRNAs被发现与癌症相关,要么作为肿瘤抑制因子,要么作为癌基因。
miRNA的作用: 人类细胞中大多数蛋白质的表达水平受到一个或多个miRNA的某种程度的调控。单个miRNA可以具有许多mRNA靶标,而单个mRNA可以被多个miRNA靶向。尽管miRNA可以共同作用,以抑制在3'非翻译区(UTR)中具有多个miRNA结合位点的靶标的表达,仅一种类型的miRNA与靶标mRNA的结合导致相对温和减少靶基因表达。通过RNA测序已经检测到1000多种不同的miRNA。一些miRNAs,如肿瘤抑制因子let-7,在几乎每种细胞类型中都有大量表达,而另一些miRNAs具有高度的细胞类型特异性表达,或者在某些细胞类型中以非常低的水平存在或不存在。因此在检测低表达的miRNAs的可能影响时,需要谨慎。
致癌和抑癌的miRNA:
1. 靶向致癌途径负调控因子的miRNAs在失调时可能通过多个靶点抑制RAS-MEK-ERK信号和miR-155/miR-221,它们分别针对SHIP1(也称为INPP5D)和PTEN,这两个都是AKT信号的负调节器。
2. 在癌症中最常见减少的miRNA是let-7 miRNA突变体,它通过靶向强效癌基因,包括MYC、KRAS和HMGA2作为主要的肿瘤抑制因子。因此,let-7 miRNAs被认为是一个重要的治疗靶标。
3. 大量miRNAs也被报道通过限制或逆转上皮-间质转化(EMT)来限制转移和/或化疗耐药,其中最有效的是miR-200家族。
miRNA失调的机制: miRNA基因由RNA聚合酶II转录,因此受到与蛋白质编码基因相同类型的表观遗传调控。事实上,许多miRNA基因都来自于蛋白质编码基因的内含子。在癌症中有许多关于miRNAs表观遗传失调的报道。 癌症中miRNA表达水平广泛下调的一种模式是源于缺氧诱导的癌细胞中Drosha和Dicer表达水平的降低 ,以及AGO2的磷酸化 ,进而降低了Dicer与AGO2并抑制miRNA从前体到成熟miRNA的加工。 然而,并不是所有的miRNAs都会受到缺氧的下调, 例如,miR-210的转录诱导可以覆盖缺氧诱导的加工减少,并且可以抑制免疫缺陷小鼠肿瘤生长的启动,但也可以促进细胞在肿瘤缺氧的应激环境中的适应和生存。 miRNAs下调的另一个机制可能是由于基因突变或前miRNAs转运蛋白exportin 5(XPO5)磷酸化水平的变化而减少核的输出。
lncRNAs已经被发现具有致癌或肿瘤抑制功能。
lncRNAs的作用: lncRNAs是指长度超过200个核苷酸不编码蛋白质的RNA。与mRNAs一样,它们由RNA聚合酶II转录,但与mRNAs不同, 许多lncRNAs优先定位于细胞核。它们具有不同的功能,包括核作用,如调节顺式或反式中的基因表达,调节剪接以及亚单位透明结构域的成核。2010年,lncRNA HOTAIR通过参与染色质重塑促进乳腺癌转移,随后发现许多lncRNA具有影响癌症发展或进展的功能。一些lncRNAs可能具有多种看似不相关的功能。 例如,lincRNA-p21最初被鉴定为p53诱导的肿瘤抑制因子lncRNA80,并被证明介导异质性核糖核蛋白K(HNRNPK)与其邻近基因CDKN1A(编码p21)的结合并增加其转录。
致癌和抑癌的lncRNA:
1. 最近的一项研究揭示了lncRNA-REG1CP在结直肠癌中的表达经常上调。REG1CP通过将解旋酶FANJ与相邻基因REG3A86的启动子连接,促进结直肠癌异种移植瘤的生长。
2. PCAT19是一种致癌的lncRNA,它激活反式基因,促进前列腺癌的生长、侵袭和转移。
3. 细胞质lncRNAs也可能是癌基因。在MYCN扩增的神经母细胞瘤中过度表达的lncRNA linc0255,通过与核糖体蛋白RPL35的相互作用特别激活E2F1的翻译。
4. lncRNAs也可以作为肿瘤抑制剂。核lncRNA DIRC3影响局部染色质结构,激活编码肿瘤抑制因子IGFBP5的邻近基因的转录。
5. lncRNAs也可以通过调节细胞质中的信号来抑制肿瘤。细胞质lncRNA-DRAIC在去势抵抗的晚期前列腺癌中下调,并通过干扰NF-κB激酶(IKK)活性抑制剂抑制核因子-κB(NF-κB)激活来抑制其进展。
6. 一些lncRNAs仍然有可能编码小蛋白。事实上,lncRNA LINC00908可以产生一种60个氨基酸的多肽,与正常组织样本相比,该多肽在三阴性乳腺癌组织中下调,并且与整体生存率差有关。
lncRNAs的多重对立效应: 关于lncRNA基因在癌症中的影响,最能说明问题的一个例子是考虑lncRNA基因在强效癌基因表达中的作用,也可能反映了MYC在驱动对增殖和生长信号的转录反应中所起的关键作用,MYC基因的转录受多个邻近lncRNA基因转录的调控。这也凸显了lncRNA基因座可以产生具有不同甚至相反功能的RNA。通过对小鼠体内大量MALAT1 lncRNA进行基因缺失研究的对比解释,进一步强调了lncRNA对基因表达影响的复杂性。
circRNA的新角色: circRNAs基本上在所有细胞和组织中都有表达,并且在癌症中可能被错误调节。circRNA主要是反向剪接事件的产物,它将外显子拼接到前一个外显子而不是下游外显子上,从而形成共价闭合的circRNA分子。有报道称, 一些circRNA位于细胞核内并调节转录,但大多数circRNAs位于细胞质中。 单个细胞可以表达数千个circRNAs,通过对患者肿瘤和癌细胞系RNA的深度测序,总共检测到超过200000个不同的circRNAs。 一些circRNAs被发现在癌症中与相应的正常组织相比过度表达,增加了它们作为疾病生物标志物的可能性。 circRNAs有可能作为癌基因或肿瘤抑制因子发挥作用, 可能是通过充当miRNAs的海绵,而一项敲除筛选表明,前列腺癌细胞中一些高度丰富的circRNAs对细胞的最大增殖至关重要,虽然还需要更多的工作来确定致癌或肿瘤抑制circRNAs。 circRNA可能还充当多蛋白复合物的核因子或组分。
失调的circRNAs: 什么导致癌症中的细胞周期失调?基因拷贝数或circRNA前体转录的改变无疑改变了它们在某些癌症中的水平。然而,由于大多数circRNAs是来自蛋白质编码基因的选择性剪接产物,因此需要仔细区分这些变化的影响与同源蛋白水平变化的影响。circRNA水平变化的另一种方式是通过参与circRNA生物合成的剪接因子水平的改变。
mRNA前体的剪接以去除内含子并以不同的方式连接外显子是基因表达的基础。事实上,选择性剪接可以通过产生选择性蛋白质亚型来促进转录组和蛋白质组的多样性。这个过程是由主要的剪接体完成的,它执行大多数的RNA剪接反应,并且与300多种不同的蛋白质相关。
一旦mRNAs被剪接和多聚腺苷酸化,它们必须从细胞核中的转录和加工部位输出到细胞质中进行翻译。有效的mRNA输出是通过将基因表达途径中的上游过程(即转录、剪接和多聚腺苷酸化)与mRNA输出耦合来实现的。mRNA不断地通过核孔复合体的内部通道运输,使蛋白质和分子能够穿过核膜。 转录、RNA剪接和多聚腺苷酸化与mRNA输出之间存在广泛的耦合,对肿瘤的发生具有重要意义。
mRNA剪接的新角色: mRNA剪接在历史上被认为是一个内控过程,对多外显子基因的表达至关重要,但最近的研究结果显示了RNA剪接机制的调控潜力。改变的mRNA剪接机制如何促进肿瘤的发生?SRSF2、SF3B1和U2AF1的突变都不同程度地影响3′剪接位点识别。这种改变的剪接可能会影响编码促进转化的蛋白质转录物的稳定性。
选择性裂解和聚腺苷酸化: 在肿瘤中也广泛观察到下游mRNA处理步骤的改变,如前体mRNAs的裂解和多聚腺苷酸化。例如,3′UTR区在肿瘤细胞系和肿瘤标本中均发生缩短。
选择性mRNA输出的新兴作用: 基因表达途径的末端步骤之一,mRNA的核输出,在癌症中也发生了改变。虽然mRNA输出被认为是基因表达中的一个普遍的、默认的途径,但是特定的生物途径可以通过选择性的mRNA输出来调节,使某些mRNAs优先于其他的。选择性mRNA输出可以调节对癌症发展至关重要的生物学过程,如细胞增殖和基因组完整性。这种mRNA输出机制的调节潜力可被癌细胞利用以维持增殖。
在过去的几年里,大量的研究已经非常详细地揭示了RNA在癌症中发生系统性改变的程度。癌症中编码和非编码RNA的广泛改变影响了肿瘤发生的多个方面。
这些不同的RNA亚型和处理它们的蛋白质参与癌症发生的机制特性,为治疗干预提供机会。例如,一些以核心剪接体机制为靶点的化合物,如与SF3B复合物结合的E7107,在体内影响RNA剪接,但在I期临床试验中静脉注射时表现出显著的毒性。最近的研究表明,在具有剪接体突变的晚期血液恶性肿瘤中,使用SF3B复合物H3B-8800的可口服调节剂,在耐受剂量良好的小鼠模型中显示了优先抗肿瘤活性。其他研究试图通过使用介导其蛋白酶体降解的化合物作为干扰剪接的替代药理学手段来调节选择性和调节性剪接因子,如RBM39,在小鼠急性髓系白血病模型中获得成功。RNA在癌症中的广泛改变将为治疗提供大量的新机会。进一步阐明RNA加工改变促进肿瘤发生、生长和进展的基本机制,对于确保癌症疗法专门针对RNA加工过程且对正常细胞的影响最小至关重要。
首发公号:国家基因库大数据平台
参考文献
Goodall, G.J., Wickramasinghe, V.O. RNA in cancer. Nat Rev Cancer (2020). https://doi.org/10.1038/s41568-020-00306-0.
G. 国家基因库生命大数据平台是什么能提供哪些服务
生物信息数据库主要建设储存基因信息的高性能数据管理系统,构建内个人健康管理和支持生容命科学研究的可运营大数据平台和全社会广泛参与的大数据系统。目前已构建四十多个数据库,总访问量达1.18亿;千万级民生项目数据库,涵盖HPV、地贫、耳聋等等;科学杂志GigaScience在综合性期刊类别中排名全球第六。基于大数据共享理念开发的生物大数据时代的搜索引擎国家基因库信息库统一检索系统,已经整合了超过8千个物种/品种、27个人种、1千万个基因、5亿条序列数据、3亿条变异信息和关联1Pb原始数据量,实现总可检索条目数8.8亿条。 生物信息数据库致力于存储人类健康及生物多样性相关的数字化遗传资源,构建生物数据库及数据分析平台,实现数据存储、分析的贯穿,为后续科研及产业提供大数据源头保障,支撑国家精准医学和精准农业发展,促进大数据分析、构建健康云服务,引领互联网+健康的合作,成为大数据生物学时代研究生物生长发育、衰老、死亡以及向产业化推广的有利工具。