國家基因大數據_國家基因庫生命大數據平台是什麼能提供哪些服務

A. 國家基因庫主任級別

國家級別
基因是萬物生存發展之源，生物體的生、長、衰、病、老、死等一切生命現象都與基因息息相關。同時，基因資源也是國家的重要戰略資源，保存、保護和合理利用基因資源將成為未來維護國家安全、打造核心競爭力的堅實基礎和有效保障。
2011年國家發展和改革委員會、財政部、工業和信息化部、衛生健康委員會（原衛生部）四部委批復依託深圳華大生命科學研究院(原深圳華大基因研究院)建設深圳國家基因庫（亦稱國家基因庫，英文名稱：China National GeneBank，CNGB），於2016年建成使用。隨著「政府所有、委託運營、獨立運作」的運行機制調整，目前由深圳國家高技術產業創新中心統籌指導，過渡期委託深圳華大生命科學研究院開展深圳國家基因庫運營工作。[15]它是我國首個國家級綜合性基因庫，也是世界領先的綜合性生物遺傳資源基因庫。支撐我國生命科學和生物經濟發展，對人類社會的健康、可持續發展具有著重要的意義。
中文名
國家基因庫
外文名
China National GeneBank
建設規模
116,000平米
成立時間
2016年9月22日
級別
國家級
相關視頻
1.3萬播放|00:58
數字形式存儲超65PB基因數據！中國，擁有世界最大綜合性基因庫→
央視財經
5055播放|00:56
創新：深圳國家基因庫，試圖容納整個世界的物種，厲害了
口述經典
2.5萬播放|03:38
中國在大山裡建設了一座超級工程，國家基因庫
熱心市民Z先生TOP
2.5萬播放|02:31
我國第一個國家基因庫落戶深圳，基因庫有多牛，科普速成
熱劇十三郎
6653播放|03:35
中國國家基因庫，破解困擾世界多年難題，植物領域研究跨出一大步
楠竹一
1.1萬播放|02:36
中國首個國家基因庫開始運營，裡面都有啥，你想不到的都有
熱劇十三郎
9927播放|01:59
基因資源已成為重要的國家戰略資源，國家基因庫，到底有多神秘
熱劇十三郎
相關星圖
廣東省第一批全國科普教育基地
共53個詞條
4741閱讀
廣東省水文局韶關水文分局
廣東省水文局韶關水文分局，位於廣東省。
中廣核大亞灣核電基地
中廣核大亞灣核電基地，位於廣東省。
廣州電力展示館
廣州電力展示館由廣州電力早期辦公場所——擁有80多年歷史的「廣州市歷史建築」華安樓改造而成，是全國少有的利用歷史建築進行
查看更多
地理位置及建築機構介紹業務功能學術交流和科普活動所獲榮譽TA說
地理位置及建築
國家基因庫基地位於深圳市大鵬新區「禾塘仔」地塊，建設規模約116,000平米，分兩期建成。國家基因庫依山而建，環境優美，建築設計緣於一期《科學》雜志封面的哈尼梯田，這期雜志刊發了2002年中國科學家在全球首次破譯水稻基因組的成果，具有里程碑式的意義。
同時，國家基因庫在建築設計時將自然生態的原有面貌和建築本身的功能性需求融合在一起，打造了一個與外界相對獨立、層層梯田種植屋面、混泥土本色與垂直綠化結合的生態建築。
機構介紹
國家基因庫是服務於國家戰略的國家級公益性創新科研及產業基礎設施建設項目，也是深圳市重大科技基礎設施之一，它將建設成為引領我國生命科學和生物經濟發展的戰略性科技力量。
國家基因庫是世界領先的國家級綜合性基因庫，具備遺傳資源的「存、讀」能力，即存儲生物資源和基因數據、對遺傳信息進行讀取及運用，並以此為基礎搭建起支撐生命科學研究與生物產業創新發展的公益性、開放性、引領性、戰略性科技平台。
國家基因庫理事會是國家基因庫的重大事項決策機構和監督機構。
業務功能
國家基因庫業務架構由生物樣本庫、生物信息資料庫、動植物資源庫、數字化平台組成。以生物資源的存、讀能力為基礎，實現樣本、數據、活體全貫穿，搭建起公益性、開放性、支撐性、引領性服務平台，促進基因組學在精準醫學、精準健康、未來農業、海洋開發、微生物應用等方面的前沿探索與產業轉化，真正實現基因資源的共有、共為、共享。國家基因庫響應國家政策，在符合國家相關法律法規和管理辦法並參照相關國際公約與慣例的基礎上，推動行業內的學術交流和樣本/ 數據資源共享，促進生命資源的科學合理應用，實現全球資源保護和戰略性應用。[1][2]
國家基因庫生命大數據平台(China National GeneBank Database)[3]是面向全球科研工作者提供生物大數據共享和應用服務的統一平台，整合全球公開生命數據，實現數據從活體到樣本再到組學數據的全過程、全貫穿，形成融合多研究領域、多數據類型、多分析維度的超大型科研數據系統，集歸檔存儲、知識搜索、分析計算、管理授權等於一體，致力於生物信息數據在生命科學與生物產業發展中創造價值。[1][4]國家基因庫（CNGB）與國際生物和環境樣本庫協會（ISBER）、全球生物多樣性聯盟（GGBN）以及中國科學院海洋研究所、中國科學院昆明動物研究所、北京重大疾病臨床數據和樣本資源庫、深圳超算中心等合作。[5]
國家基因庫
樣本——測序數字化——數據全貫穿：連接表型和基因型，支撐健康醫學、農業育種領域科學研究。
數據高效匯交與安全共享：資源二次挖掘，打破生物資源孤島，促進資源共享。
數據整合挖掘，形成知識庫：促進數據應用轉化，推動下游生物行業產品研發。[14]
學術交流和科普活動
2016年9月22日位於深圳大鵬新區的國家基因庫正式啟用。[6]國家基因庫利用生命科學和生物信息數據科學的前沿技術，聯合行業領先機構和國內外標准化組織，共同建立樣本、數據、資源等國際、國內相關標准，引領行業規范有序的發展，為生命科學研究、醫學健康和生物產業發展提供基礎支撐。[7]國家基因庫充分利用自身的平台實力及行業影響力，為科研工作者、相關產業的從業者和普通民眾創造學術交流、人才培訓、科普教育的廣闊空間與寶貴機遇，促進學術研究成果的共享、傳播、交流和應用，提升領域內人才的理論與實踐能力，培養民眾的科學態度與科學精神。

B. 肺癌研究進展 | Cell及其子刊上那些關於肺癌的多組學研究

肺癌是全球發病率和致死率最高的惡性腫瘤，據2018年全球腫瘤統計分析報告顯示，全球肺癌的男女發病率分別為：年齡標化率（ASR）1.5/10萬和14.6/10萬；死亡率為ASR 27.1/10萬和11.2/10萬。

關於肺癌的多組學研究為科研人員和臨床醫生尋求更精確的診斷和治療策略提供參考。7月9日出版的《 Cell 》連發三篇關於肺腺癌的蛋白組學+基因組的綜合研究成果，之前 Cell 子刊《 Cell Metabolism 》也發表過關於小細胞肺癌的轉錄組+代謝組綜合研究成果，這些多組學研究具有極為重要的臨床指導意義。

研究人員利用蛋白質組學、磷酸蛋白質組學和基因組學數據對103例肺腺癌（LUAD）及其配對的非癌性鄰近組織（NATs）進行了綜合組學分析：

揭示了癌症相關的特徵，例如腫瘤相關的蛋白質變體，獨特的蛋白質組學特徵以及早期患者或具有EGFR和TP53突變的患者的臨床結局；

基於蛋白質組的LUAD分層顯示出與不同的臨床和分子特徵相關的三種亞型（S-I，S-II和S-III）；

發現了潛在的葯物靶標，並驗證了HSP 90b的血漿蛋白水平是獨立隊列中LUAD的潛在預後生物標志。

原始蛋白質組學數據已上傳至iProx，項目編號：IPX0001804000.

原始轉錄組數據已存入GEO，數據編號：GSE140343.

由於原始基因組數據的公開共享受到中國人遺條例限制，外顯子組測序的詳細結果見表S2。

研究人員對110個LUAD和101個NATs進行了全面的組學表徵，包括基因組學，表觀基因組學，深度蛋白質組學，磷酸蛋白質組學和乙醯蛋白質組學。

揭示了包括拷貝數、體細胞突變等基因層面改變的下游生物學功能；

通過磷酸化蛋白質組學方式鑒定出ALK-fusion作為診斷標記物和靶點的潛力；

鑒定得到了多個候選葯物靶點：PTPN11(EGFR)、SOS1(KRAS)，中性粒細胞脫顆粒(STK11)；

LUAD腫瘤標記物蛋白磷酸化和乙醯化修飾也可能參與其中。

原始蛋白質組學數據可通過CPTAC數據門戶網站獲得：

👉 https://cptac-data-portal.georgetown.e/cptac/s/S056

基因組和轉錄組數據文件可在GDC獲取：

👉 https://www.ncbi.nlm.nih.gov/projects/gap/cgi-bin/study.cgi?study_id=phs001287.v5.p4.

研究人員在中國台灣收集了103名未經治療的LUAD患者腫瘤組織和NATs，並進行了全外顯子測序、RNA測序、蛋白質組學和磷酸化蛋白質組學檢測。

首次展現了東亞人群中非吸煙LUAD患者的蛋白質基因組學景觀，鑒定出23145個非同義體細胞單核苷酸變異（SNVs）。在轉錄組水平上，共量化了30155個RNA。在蛋白組水平上，超過10000個獨特的蛋白質和20000個磷酸酶被量化；

突變特徵分析揭示了年齡和性別相關的突變機制，高APOBEC突變特徵存在於74%的年輕女性（≤60歲）和所有無EGFR突變的女性中，而男性患者中沒有觀察到類似的趨勢；

通過蛋白質組特徵對LUAD早期階段進行臨床分類；

找到了一個有潛力作為非小細胞肺癌早期檢測和治療的生物標志物MMP11。

蛋白質組學和磷蛋白組學分析的原始數據文件和處理後的數據已上傳至NCI蛋白質組學數據共享平台：

👉 https://pdc.cancer.gov/pdc/study/PDC000219

👉 https://pdc.cancer.gov/pdc/study/PDC000220

研究人員運用代謝組和轉錄組等多組學研究手段，首先對小細胞肺癌細胞系，繼而對基因工程小鼠和臨床原發腫瘤組織等進行分析。

發現ASCL1低表達的小細胞肺癌細胞中嘌呤核苷酸的含量顯著上升，同時伴隨嘌呤合成通路中相關基因，特別是嘌呤合成途徑中的關鍵限速酶—次黃嘌呤脫氫酶（IMPDH）的表達顯著上調。代謝流分析結果顯示，嘌呤合成途徑的反應速率顯著增加；

進一步的機制研究表明，ASCL1低表達的小細胞肺癌伴隨了致癌基因MYC高表達，MYC作為轉錄因子通過激活IMPDH的轉錄從而促進了嘌呤合成速率；

在裸鼠移植瘤模型和腫瘤細胞中，抑制IMPDH能夠降低ASCL1低表達的小細胞肺癌細胞和腫瘤組織的生長速度，提示IMPDH是一個潛在新型葯物靶點。

研究相關資源和試劑的更多信息可向研究的主要聯系人申請：[email protected].

國家基因庫序列歸檔系統（CNSA）可實現【基因組】和【代謝組】數據的一站式歸檔服務（蛋白組數據歸檔功能正在開發中，敬請期待）。

👉 操作指引：登錄CNGBdb → 導航欄點擊數據提交 → 進入CNSA：導航欄點擊提交入口或在頁面點擊提交按鈕 → 數據提交頁面可根據數據類型完成數據提交。

數據提交過程遇到任何問題都可直接聯系[email protected]。

CNGBdb 的數據[存]儲功能由旗下的國家基因庫序列歸檔系統（CNSA，db.cngb.org/cnsa）負責，這是國內首個實現在線批量上傳和審編的組學數據歸檔庫，可支撐全球科研成果發表。截至2021年3月4日，CNSA已支持論文發表228篇，發表期刊127個，包括 The Lancet、Nature、Science、Cell 等。

首發公號：國家基因庫大數據平台

參考文獻

[1] 周彩存, 王潔, 步宏, 等. 中國非小細胞肺癌免疫檢查點抑制劑治療專家共識 (2019 年版)[J]. Chinese Journal of Lung Cancer, 2020, 23(2): 65.

[2] Xu J Y, Zhang C, Wang X, et al. Integrative proteomic characterization of human lung adenocarcinoma[J]. Cell, 2020, 182(1): 245-261. e17.

[3] Gillette M A, Satpathy S, Cao S, et al. Proteogenomic characterization reveals therapeutic vulnerabilities in lung adenocarcinoma[J]. Cell, 2020, 182(1): 200-225. e35.

[4] Chen Y J, Roumeliotis T I, Chang Y H, et al. Proteogenomics of Non-smoking Lung Cancer in East Asia Delineates Molecular Signatures of Pathogenesis and Progression[J]. Cell, 2020, 182(1): 226-244. e17.

[5] Huang F, Ni M, Chalishazar MD, et al. Inosine Monophosphate Dehydrogenase Dependence in a Subset of Small Cell Lung Cancers. Cell Metab. 2018;28(3):369-382.e5.

C. 什麼是基因大數據分析

基因大數據分析就是像佳學基因那樣通過分子生物學、分子病理學、分子葯理學的最新內科技建立《人的基因容序列變化與人體疾病表徵》資料庫，再加上臨床樣本的收集、優化和調整，可以對人任何一種疾病找到基因的原因，對任何一種基因序列預測人體可能出現的疾病和能力變化。通過佳學基因大數據分析可以進行人的天賦基因解碼、人的健康成長呵護基因解碼、致病基因鑒定基因解碼、用葯指導基因解碼、婚戀咨詢基因解碼和完美寶貝基因解碼。

D. 國家基因組科學數據中心怎麼用

sisichen �
關注
國家基因組科學數據中心（NGDC）---組學原始數據如何上傳GSA 原創
2022-04-25 14:44:31

sisichen �

碼齡4年

關注
文章目錄
前言
一、什麼是NGDC？
二、NGDC的發展歷程
三、什麼是GSA？
四、為什麼選擇上傳數據到GSA？
五、如何上傳測序原始數據至GSA？（重點！！附詳細步驟！！）
1. 准備要上傳的數據
2. 計算MD5碼
3.進入NGDC主頁，登入賬戶
4. 填寫數據信息
第一步：建立Bioproject。
第二步：建立BioSample。
第三步：創建GSA。
進入GSA資料庫
新建GSA
填寫信息
下載表格文件
5. 數據上傳：
(1). 通過FTP軟體上傳（上傳需要流量！！如果小數據可以用）
(2). 通過伺服器上傳（推薦！！）:如果實驗室有伺服器的話，推薦伺服器上傳，步驟如下：（伺服器上要先安裝ftp ）
（3）郵寄硬碟
6.等待審核
總結
前言
在發表文章之前我們需要將測序的原始數據上傳到一個公共庫，並在文中提供accession number，實現數據的公開共享，這是國際慣例。以前我們上傳數據時只能上傳到美國國立生物技術信息中心（NCBI）、歐洲生物信息學研究所（EBI）、日本核酸資料庫(DDBJ)，現在中國科學院北京基因組研究所（國家生物信息中心）國家基因組科學數據中心 (CNCB-NGDC)—中國的「NCBI」已經建立並日漸完善。組學原始數據歸檔庫（GSA）是組學原始數據匯交、存儲、管理與共享系統，是國內首個被國際期刊認可的組學數據發布平台。GSA已獲得多個國際期刊認可，並已被國際著名出版商Elsevier收錄為指定的基因數據歸檔庫，其權威性得到國內外100餘家學術雜志的認可。GSA已通過FAIRsharing認證，獲得Wiley出版集團認可，因此我們不用擔心上傳數據到GSA不被期刊認可，也不用再舍近求遠上傳數據到NCBI，作為中國人，我們一定要支持我們NGDC中的資料庫。本文介紹了如何上傳測序原始數據到GSA，附詳細操作步驟。

一、什麼是NGDC？
國家基因組科學數據中心（https://ngdc.cncb.ac.cn/;NGDC）於2019年6月5日經科技部、財政部通知公布，由鮑一明研究員作為學術帶頭人，以中國科學院北京基因組研究所（國家生物信息中心）作為依託單位，聯合中國科學院生物物理研究所和中國科學院上海營養與健康研究所共同建設。中心面向我國人口健康和社會可持續發展的重大戰略需求，建立生命健康組學大數據儲存、整合與挖掘分析研究體系，研發生物多樣性與健康大數據匯交、應用與共享平台，發展大數據系統解析與轉化應用的新技術和新方法，建設支撐我國生命科學發展、國際知名的基因組科學數據中心。

2020年中心開發了8個全新資料庫 (2019nCoVR，Aging Atlas，BrainBase，CGIR，GTDB，LncExpDB，scMethBank和TransCirc)，更新和豐富了多個核心資料庫資源 (BioProject，BioSample，GSA，GWH，GVM，GEN和生物多樣性資源等)，涉及疾病、衰老、調控和生物多樣性等多個前沿領域，初步形成我國生物數據安全匯交管理和多組學數據平台的國家中心數據資源體系。資料庫建設整體情況以「Database Resources of the National Genomics Data Center, China National Center for Bioinformation in 2021」為題在國際學術期刊《核酸研究》(Nucleic Acids Research)在線發表。

NGDC的主要致力於以下三方面的工作：①圍繞中國人群普惠健康的精準醫學相關組學信息資源，完善建立中國人群基因組遺傳變異圖譜，形成中國人群精準醫學信息庫；②基於高通量測序的海量原始組學數據資源，建立符合國際標準的原始組學數據歸檔庫，形成中國原始組學數據的共享平台；③圍繞國家重要戰略生物資源，建立海量組學數據的整合、挖掘與應用體系，形成綜合性的多組學資料庫系統。

在這里插入圖片描述

常用資源：
生物項目資料庫（BioProject）：是收集與共享生物學研究項目信息的資源庫，涵蓋的項目類型包括常規組學研究的基因組、轉錄組、表觀組和宏基因組等，並針對大型項目提供高效、安全、專業化的項目分級管理。
生物樣本資料庫（BioSample）：是收集與與共享生物樣品信息的資源庫，提供生物樣品單結構化描述信息遞交和發布，涵蓋的樣品類型包括人、動物、植物、微生物（含環境微生物）、病毒等，提供批量數據上傳和離線數據遞交服務。通常一個BioProjiect對應一個BioSample，如果多個樣本可以批量設置BioSample，也就是一個BioProject對應多個Biosample。
組學原始數據歸檔庫（GSA）：植物/動物
組學原始數據歸檔庫（GSA-Human）：人類遺傳資源數據，需要備案
多元數據歸檔庫（OMIX）：如要共享的代謝組數據，影像，Excel等，上述兩個庫不能存放的，上傳到這個庫。
生物工具庫（Biocode）：存放代碼，部分替代github
基因組序列資料庫(GWH)：類似於NCBI 的genebank, 基因組拼接組裝完的數據可以上傳到這里
基因組變異庫（GVM）：等同於NCBI DDSNP（19年後只接受人的），包括人動物作物的單核苷酸多態性變異，call SNP 變異的數據上傳這里
生物資料庫目錄（DBCommons ）：根據引用（平均年引用）評價一些資料庫，如DVide和KEGG等
基因表達資料庫（GEN）：等同於國際上的GO
甲基化資料庫（MethBank）

二、NGDC的發展歷程
生物信息的數據要海量整合後才會有價值，割裂的資料庫只完成了「存」卻難以走向「使用」, 為了解決我國基因組數據存管用難、數據流失嚴重、核心基因組科學信息資源先「出口」再「進口」的問題，國家基因組科學數據中心應運而生。從2016年到2022年，短短6年的時間，NGDC已經發展成為全球主要的生物數據中心。
在這里插入圖片描述
在這里插入圖片描述

三、什麼是GSA？
組學原始數據歸檔庫（Genome Sequence Archive，簡稱GSA）是組學原始數據匯交、存儲、管理與共享系統，是國內首個被國際期刊認可的組學數據發布平台, 主要匯交實驗信息（Experiment Metadata）、測序反應信息（Run Metadata）信息以及歸檔測序文件數據（Sequence Data file）。

GSA的系統建設遵循了國際核酸序列共享聯盟（InternationalNucleotide Sequence Database Collaboration,INSDC）的相關標准，並作為INSDC的補充，旨在減輕國際相關資料庫數據存貯及數據傳輸的壓力；立足中國，服務全球。由於中國國際網路出口帶寬的瓶頸問題，數據傳輸效率低下。以中國科學院北京基因組研究所的150Mbs出口帶寬為例，向NCBI資料庫遞交1TB的數據需要花費2周以上的時間。GSA的建立可以讓國人享受更快的傳輸速度，更貼心的服務！

截至2022年4月，GSA已為國內外多個單位提供免費數據存儲服務，累計用戶遞交項目信息超過572,259個，用戶提交的測序數據量超過13.23PB。
在這里插入圖片描述

四、為什麼選擇上傳數據到GSA？
上傳GSA資料庫的幾大理由:

1.符合數據戰略安全要求；
2. 是國內首個被國際期刊認可的組學數據發布平台；
3.界面可切換為中文，契合大家閱讀習慣；
4.人性化設置，例如公布日期可隨時修改，數據未公開前可一鍵分享給審稿人查看，數據上傳信息修改、增添方便等等；
5.多途徑協助數據上傳, 上傳數據快 (qq群全天候解答疑問，優盤寄送或工作人員上門拷貝等綠色上傳通道)。
3. GSA立足於中國，極大方便了中國科學家的數據遞交，同時遵循INSDC聯盟數據標准，立心於服務全球，為全世界的科研領域共享貢獻數據。

簡單來說就是：有底氣、被認可、更快、更方便

五、如何上傳測序原始數據至GSA？（重點！！附詳細步驟！！）
1. 准備要上傳的數據
原始數據，fastq、bam文件，網站只接受gzip和bzip2壓縮格式
在這里插入圖片描述

2. 計算MD5碼
MD5碼主要是用來校驗遞交的數據在網路傳輸過程中是否損壞或丟包，它是由數字和英文字母組成的長度為 32 的定長字元串，一般測序公司返回的數據中會有。我們也可以通過以下方式進行計算MD5碼：

Linux 用戶使用 $ md5sum 命令計算；（輸入md5sum 加文件名）
代碼如下（示例）：

在這里插入圖片描述

Mac 用戶使用$ md5 命令計算；
Windows 用戶使用第三方工具進行計算，例如 winmd5free。
3.進入NGDC主頁，登入賬戶
首先進入我們NGDC主頁：（https://ngdc.cncb.ac.cn/）–點擊登入；

在這里插入圖片描述如果是第一次使用要注冊賬戶：
在這里插入圖片描述在這里插入圖片描述

4. 填寫數據信息
賬戶注冊完以後，就可以登入賬戶按照以下原則進行數據信息錄入。簡單來說就是填寫你要上傳數據的信息，分為以下三步①先創建BioProject ②創建BioSample ③創建GSA（先創建experiment 再創建run）。只填寫*的必填部分即可。可能大家不太理解BioProject, BioSample，experiment, run。舉個例子，假如我有以四個時間點Ck，12h，24h，48h，每個時間點三個生物學重復，取樣測的轉錄組數據。那麼我就有12個樣本BioSample，12個experiment，12個run，或者一個experiment對應多個run也可以。

E. 大數據首次揭示中國人基因特徵，具有怎樣的意義

10月10日，華大在深圳國家基因庫正式對外發布一項迄今為止最大規模的中國人基版因組學大數據研究權成果。

研究發現，中國人血漿的病毒組與歐洲人存在比較大的差異，比如。

在歐洲人群中排名前兩位的分別是與皮膚急疹相關的皰疹病毒7型及與鼻咽癌相關的皰疹病毒4型，而在我國人群中排在首位的則是乙肝病毒，其感染發生率大約為2.5%。

F. Nature子刊綜述幫你總結知識點：癌症中的RNA，每個都是研究熱點

基因表達紊亂是癌症的一個主要標志。事實上，轉錄因子活動的改變已被證明是一些癌症最常見亞型的驅動因素。RNA對基因表達至關重要，無論是以蛋白編碼RNA（mRNAs）的形式，還是以參與和調節轉錄的非編碼RNA形式（lncRNAs或snRNA）、剪接（snRNAs）和翻譯（核糖體RNAs、tRNAs和microRNAs）。最近的證據表明，RNA的加工在癌症中被系統改變，證明RNA對腫瘤發生、生長和進展的重要影響。

2020年10月，來自澳大利亞的研究人員在《 Nature Reviews Cancer 》發表題為「RNA in cancer」的綜述，討論了編碼和非編碼RNA的加工或活性改變如何促進腫瘤的發生、生長和進展，強調了RNA在癌症中的既定角色（miRNA和lncRNA）和新興角色（選擇性mRNA加工和circRNA）以及它們對癌症的作用機制。

一旦RNA聚合酶II合成了 mRNA ，它必須首先剪接並進一步加工成成熟的轉錄物，然後從細胞核輸出到細胞質，轉化為蛋白質。這些相互連接的處理步驟是由許多大分子復合物完成的，例如剪接體和轉錄-輸出復合物TREX和TREX2。

在生理條件下，基因表達也可以通過一些非編碼RNA ，包括miRNAs、lncRNAs和circRNAs來調節。通常，miRNAs通過加速靶基因的去乙醯化和降解來負調控基因的表達，而lncRNAs則通過作為調節蛋白復合物的支架、定位到基因組DNA或改變基因組結構來調節順式或反式的基因表達。

許多miRNAs被發現與癌症相關，要麼作為腫瘤抑制因子，要麼作為癌基因。

miRNA的作用：人類細胞中大多數蛋白質的表達水平受到一個或多個miRNA的某種程度的調控。單個miRNA可以具有許多mRNA靶標，而單個mRNA可以被多個miRNA靶向。盡管miRNA可以共同作用，以抑制在3'非翻譯區（UTR）中具有多個miRNA結合位點的靶標的表達，僅一種類型的miRNA與靶標mRNA的結合導致相對溫和減少靶基因表達。通過RNA測序已經檢測到1000多種不同的miRNA。一些miRNAs，如腫瘤抑制因子let-7，在幾乎每種細胞類型中都有大量表達，而另一些miRNAs具有高度的細胞類型特異性表達，或者在某些細胞類型中以非常低的水平存在或不存在。因此在檢測低表達的miRNAs的可能影響時，需要謹慎。

致癌和抑癌的miRNA：

1. 靶向致癌途徑負調控因子的miRNAs在失調時可能通過多個靶點抑制RAS-MEK-ERK信號和miR-155/miR-221，它們分別針對SHIP1（也稱為INPP5D）和PTEN，這兩個都是AKT信號的負調節器。

2. 在癌症中最常見減少的miRNA是let-7 miRNA突變體，它通過靶向強效癌基因，包括MYC、KRAS和HMGA2作為主要的腫瘤抑制因子。因此，let-7 miRNAs被認為是一個重要的治療靶標。

3. 大量miRNAs也被報道通過限制或逆轉上皮-間質轉化（EMT）來限制轉移和/或化療耐葯，其中最有效的是miR-200家族。

miRNA失調的機制： miRNA基因由RNA聚合酶II轉錄，因此受到與蛋白質編碼基因相同類型的表觀遺傳調控。事實上，許多miRNA基因都來自於蛋白質編碼基因的內含子。在癌症中有許多關於miRNAs表觀遺傳失調的報道。癌症中miRNA表達水平廣泛下調的一種模式是源於缺氧誘導的癌細胞中Drosha和Dicer表達水平的降低，以及AGO2的磷酸化，進而降低了Dicer與AGO2並抑制miRNA從前體到成熟miRNA的加工。然而，並不是所有的miRNAs都會受到缺氧的下調，例如，miR-210的轉錄誘導可以覆蓋缺氧誘導的加工減少，並且可以抑制免疫缺陷小鼠腫瘤生長的啟動，但也可以促進細胞在腫瘤缺氧的應激環境中的適應和生存。 miRNAs下調的另一個機制可能是由於基因突變或前miRNAs轉運蛋白exportin 5（XPO5）磷酸化水平的變化而減少核的輸出。

lncRNAs已經被發現具有致癌或腫瘤抑制功能。

lncRNAs的作用： lncRNAs是指長度超過200個核苷酸不編碼蛋白質的RNA。與mRNAs一樣，它們由RNA聚合酶II轉錄，但與mRNAs不同，許多lncRNAs優先定位於細胞核。它們具有不同的功能，包括核作用，如調節順式或反式中的基因表達，調節剪接以及亞單位透明結構域的成核。2010年，lncRNA HOTAIR通過參與染色質重塑促進乳腺癌轉移，隨後發現許多lncRNA具有影響癌症發展或進展的功能。一些lncRNAs可能具有多種看似不相關的功能。例如，lincRNA-p21最初被鑒定為p53誘導的腫瘤抑制因子lncRNA80，並被證明介導異質性核糖核蛋白K（HNRNPK）與其鄰近基因CDKN1A（編碼p21）的結合並增加其轉錄。

致癌和抑癌的lncRNA：

1. 最近的一項研究揭示了lncRNA-REG1CP在結直腸癌中的表達經常上調。REG1CP通過將解旋酶FANJ與相鄰基因REG3A86的啟動子連接，促進結直腸癌異種移植瘤的生長。

2. PCAT19是一種致癌的lncRNA，它激活反式基因，促進前列腺癌的生長、侵襲和轉移。

3. 細胞質lncRNAs也可能是癌基因。在MYCN擴增的神經母細胞瘤中過度表達的lncRNA linc0255，通過與核糖體蛋白RPL35的相互作用特別激活E2F1的翻譯。

4. lncRNAs也可以作為腫瘤抑制劑。核lncRNA DIRC3影響局部染色質結構，激活編碼腫瘤抑制因子IGFBP5的鄰近基因的轉錄。

5. lncRNAs也可以通過調節細胞質中的信號來抑制腫瘤。細胞質lncRNA-DRAIC在去勢抵抗的晚期前列腺癌中下調，並通過干擾NF-κB激酶（IKK）活性抑制劑抑制核因子-κB（NF-κB）激活來抑制其進展。

6. 一些lncRNAs仍然有可能編碼小蛋白。事實上，lncRNA LINC00908可以產生一種60個氨基酸的多肽，與正常組織樣本相比，該多肽在三陰性乳腺癌組織中下調，並且與整體生存率差有關。

lncRNAs的多重對立效應：關於lncRNA基因在癌症中的影響，最能說明問題的一個例子是考慮lncRNA基因在強效癌基因表達中的作用，也可能反映了MYC在驅動對增殖和生長信號的轉錄反應中所起的關鍵作用，MYC基因的轉錄受多個鄰近lncRNA基因轉錄的調控。這也凸顯了lncRNA基因座可以產生具有不同甚至相反功能的RNA。通過對小鼠體內大量MALAT1 lncRNA進行基因缺失研究的對比解釋，進一步強調了lncRNA對基因表達影響的復雜性。

circRNA的新角色： circRNAs基本上在所有細胞和組織中都有表達，並且在癌症中可能被錯誤調節。circRNA主要是反向剪接事件的產物，它將外顯子拼接到前一個外顯子而不是下游外顯子上，從而形成共價閉合的circRNA分子。有報道稱，一些circRNA位於細胞核內並調節轉錄，但大多數circRNAs位於細胞質中。單個細胞可以表達數千個circRNAs，通過對患者腫瘤和癌細胞系RNA的深度測序，總共檢測到超過200000個不同的circRNAs。一些circRNAs被發現在癌症中與相應的正常組織相比過度表達，增加了它們作為疾病生物標志物的可能性。 circRNAs有可能作為癌基因或腫瘤抑制因子發揮作用，可能是通過充當miRNAs的海綿，而一項敲除篩選表明，前列腺癌細胞中一些高度豐富的circRNAs對細胞的最大增殖至關重要，雖然還需要更多的工作來確定致癌或腫瘤抑制circRNAs。 circRNA可能還充當多蛋白復合物的核因子或組分。

失調的circRNAs：什麼導致癌症中的細胞周期失調？基因拷貝數或circRNA前體轉錄的改變無疑改變了它們在某些癌症中的水平。然而，由於大多數circRNAs是來自蛋白質編碼基因的選擇性剪接產物，因此需要仔細區分這些變化的影響與同源蛋白水平變化的影響。circRNA水平變化的另一種方式是通過參與circRNA生物合成的剪接因子水平的改變。

mRNA前體的剪接以去除內含子並以不同的方式連接外顯子是基因表達的基礎。事實上，選擇性剪接可以通過產生選擇性蛋白質亞型來促進轉錄組和蛋白質組的多樣性。這個過程是由主要的剪接體完成的，它執行大多數的RNA剪接反應，並且與300多種不同的蛋白質相關。

一旦mRNAs被剪接和多聚腺苷酸化，它們必須從細胞核中的轉錄和加工部位輸出到細胞質中進行翻譯。有效的mRNA輸出是通過將基因表達途徑中的上游過程（即轉錄、剪接和多聚腺苷酸化）與mRNA輸出耦合來實現的。mRNA不斷地通過核孔復合體的內部通道運輸，使蛋白質和分子能夠穿過核膜。轉錄、RNA剪接和多聚腺苷酸化與mRNA輸出之間存在廣泛的耦合，對腫瘤的發生具有重要意義。

mRNA剪接的新角色： mRNA剪接在歷史上被認為是一個內控過程，對多外顯子基因的表達至關重要，但最近的研究結果顯示了RNA剪接機制的調控潛力。改變的mRNA剪接機制如何促進腫瘤的發生？SRSF2、SF3B1和U2AF1的突變都不同程度地影響3′剪接位點識別。這種改變的剪接可能會影響編碼促進轉化的蛋白質轉錄物的穩定性。

選擇性裂解和聚腺苷酸化：在腫瘤中也廣泛觀察到下游mRNA處理步驟的改變，如前體mRNAs的裂解和多聚腺苷酸化。例如，3′UTR區在腫瘤細胞系和腫瘤標本中均發生縮短。

選擇性mRNA輸出的新興作用：基因表達途徑的末端步驟之一，mRNA的核輸出，在癌症中也發生了改變。雖然mRNA輸出被認為是基因表達中的一個普遍的、默認的途徑，但是特定的生物途徑可以通過選擇性的mRNA輸出來調節，使某些mRNAs優先於其他的。選擇性mRNA輸出可以調節對癌症發展至關重要的生物學過程，如細胞增殖和基因組完整性。這種mRNA輸出機制的調節潛力可被癌細胞利用以維持增殖。

在過去的幾年裡，大量的研究已經非常詳細地揭示了RNA在癌症中發生系統性改變的程度。癌症中編碼和非編碼RNA的廣泛改變影響了腫瘤發生的多個方面。

這些不同的RNA亞型和處理它們的蛋白質參與癌症發生的機制特性，為治療干預提供機會。例如，一些以核心剪接體機制為靶點的化合物，如與SF3B復合物結合的E7107，在體內影響RNA剪接，但在I期臨床試驗中靜脈注射時表現出顯著的毒性。最近的研究表明，在具有剪接體突變的晚期血液惡性腫瘤中，使用SF3B復合物H3B-8800的可口服調節劑，在耐受劑量良好的小鼠模型中顯示了優先抗腫瘤活性。其他研究試圖通過使用介導其蛋白酶體降解的化合物作為干擾剪接的替代葯理學手段來調節選擇性和調節性剪接因子，如RBM39，在小鼠急性髓系白血病模型中獲得成功。RNA在癌症中的廣泛改變將為治療提供大量的新機會。進一步闡明RNA加工改變促進腫瘤發生、生長和進展的基本機制，對於確保癌症療法專門針對RNA加工過程且對正常細胞的影響最小至關重要。

首發公號：國家基因庫大數據平台

參考文獻

Goodall, G.J., Wickramasinghe, V.O. RNA in cancer. Nat Rev Cancer (2020). https://doi.org/10.1038/s41568-020-00306-0.

G. 國家基因庫生命大數據平台是什麼能提供哪些服務

生物信息資料庫主要建設儲存基因信息的高性能數據管理系統，構建內個人健康管理和支持生容命科學研究的可運營大數據平台和全社會廣泛參與的大數據系統。目前已構建四十多個資料庫，總訪問量達1.18億；千萬級民生項目資料庫，涵蓋HPV、地貧、耳聾等等；科學雜志GigaScience在綜合性期刊類別中排名全球第六。基於大數據共享理念開發的生物大數據時代的搜索引擎國家基因庫信息庫統一檢索系統，已經整合了超過8千個物種/品種、27個人種、1千萬個基因、5億條序列數據、3億條變異信息和關聯1Pb原始數據量，實現總可檢索條目數8.8億條。生物信息資料庫致力於存儲人類健康及生物多樣性相關的數字化遺傳資源，構建生物資料庫及數據分析平台，實現數據存儲、分析的貫穿,為後續科研及產業提供大數據源頭保障,支撐國家精準醫學和精準農業發展，促進大數據分析、構建健康雲服務，引領互聯網+健康的合作，成為大數據生物學時代研究生物生長發育、衰老、死亡以及向產業化推廣的有利工具。

導航:首頁 > 網路數據 > 國家基因大數據

國家基因大數據

與國家基因大數據相關的資料

友情鏈接