❶ DESeq2處理TCGA資料庫Seq-count數據
1、DESeq2需要導入兩個數據集:mycounts, colData。先說mycounts,這就是處理完的TCGA數據RNAmatrix.txt,直接讀入即可。
2、colData就是對每個樣本的一個情況說明。這個可以生成,也可以自己寫一個保存為csv格式。我一般自己寫。
3、構建矩陣
4、輸出結果
❷ TCGA資料庫介紹
腫瘤基因組圖譜 (TCGA) 計劃由美國 National Cancer Institute(NCI) 和 National Human Genome Research Institute(NHGRI)於 2006 年聯合啟動的項目,目前共計研究 36 種癌症類型。
TCGA 利用大規模測序為主的基因組分析技術,通過廣泛的合作,理解癌症的分子機制。提高人們對癌症發病分子基礎的科學認識及提高我們診斷、治療和預防癌症的能力。 最終完成一套完整的與所有癌症基因組改變相關的「圖譜」。
TCGA臨床數據有兩種:
數據文件有 (HTSeq count/ FPKM/ FPKM-UQ)3種
介紹鏈接
生成raw read counts數據記錄==在mirnas.quantification.txt==文件中。多比對用cross-mapped列標注。文件中包括associates miRNA IDs with read count and a normalized count in reads-per-million-miRNA-mapped。
RPM counts記錄在 ==isoforms==.quantification.txt文件中。文件中包括miRNA表達量定量分析中的所有列,除此之外還增加了isoforms的基因組坐標信息以及miRNA信息(前體或成熟&accession)
使用Affymetrix SNP 6.0晶元,基於TCGA level 2 數據,最終生成txt文件,包含5列(片段名稱,染色體,基因組位置,結合到晶元上的探針數量,seqment_mean)
包括以下幾個平台:
文件包括以下這些列:
❸ tcga資料庫樣本哪些是腫瘤哪些是正常
答案就在TCGAbarcode,樣本標簽描述了樣本類型,是正常的還是異常的。還是對照組。比如膠質瘤RNAseq的barcode,有174個樣本類似於這個:
TCGA-06-0681-11A-41R-A36H-07
TCGA-06-0649-01B-01R-1849-01
第四個欄位:11A和01B描述的就是樣本類型,1-9是腫瘤,10-19是正常,20-29是對照。A和B我也不知道啥意思。由於TCGAbarcode欄位寬度是嚴格的。因此用substr就可提取
names=colnames(RNAseq_dat)
a=as.numeric(substr(names,14,15))
table(a)
可以看見數據中有5個是正常組織樣本
----------------------
Xena網站(網頁鏈接)有整理好的TCGA數據,包括數據集和樣本表格。樣本表格數據詳細,包含生存期,腫瘤分期分級,突變,亞型等等。
❹ 如何快速掌握TCGA資料庫
參加培訓班——最快速的方法。有些生物信息公司會針對高校教師和醫師開生信培訓班,我導師帶著我上過幾次,有TCGA、Oncomine和R的。缺點是價格貴,一次一天兩三千,優點是上手快,而且會有後續服務,比如課上完後你在qq群里提問,一般公司技術人員都會給你解決。我放幾張上完培訓班後發的資料,是課上PPT轉的PDF。另外再推薦一本中文教材,可以做補充用。優點是淺顯易懂,缺點是不夠深入且作者態度傲嬌,但書還可以,《R語言與Bioconctor-生物信息學應用》,隨著大數據時代的到來,各種生物類公共資料庫井噴,其中就包括癌症領域熟為人知的癌症基因圖譜The Cancer Genome Atlas (TCGA)資料庫。TCGA由NCI牽頭,作為美國攻克癌計劃的一個大項目,投入了巨大的人力和物力,系統提供了癌症多組學測序和晶元數據,包括Gene expression, DNA methylation, Copy NumberVariation, Mutation等結果,同時也附有相應各測序樣本的完整臨床資料。TCGA為腫瘤基礎醫學和轉化醫學研究者提供了海量的基因組數據和與其關聯的臨床數據,這為挖掘有意義的基因組變化和發現影響腫瘤起始、發展、分化、轉移等生物學機制提供了海量數據基礎。然而傳統的基礎醫學和轉化醫學研究者缺乏信息學基礎來處理大規模癌症數據,因而在面對這些極其有價值的基因組數據時,往往心有餘而力不足。作為醫學信息領域研究者,我們需要將信息學和統計學知識運用到癌症基因組學數據分析的研究當中,作為連接大數據與基礎醫學研究者之間的一個紐帶,幫助研究者去更好地挖掘探索這些數據。
❺ TCGA資料庫中含有的癌症名稱,簡寫和中文名稱
Abbr 英文名稱 中文名稱
ACC Adrenocortical carcinoma 腎上腺皮質癌
BLCA Bladder Urothelial Carcinoma 膀胱尿路上皮癌
BRCA Breast invasive carcinoma 乳腺浸潤癌
CESC Cervical squamous cell carcinoma and endocervical adenocarcinoma 宮頸鱗癌和腺癌
CHOL Cholangiocarcinoma 膽管癌
COAD Colon adenocarcinoma 結腸癌
COADREAD Colon adenocarcinoma/Rectum adenocarcinoma Esophageal carcinoma 結直腸癌
DLBC Lymphoid Neoplasm Diffuse Large B-cell Lymphoma 彌漫性大B細胞淋巴瘤
ESCA Esophageal carcinoma 食管癌
FPPP FFPE Pilot Phase II FFPE試點二期
GBM Glioblastoma multiforme 多形成性膠質細胞瘤
GBMLGG Glioma 膠質瘤
HNSC Head and Neck squamous cell carcinoma 頭頸鱗狀細胞癌
KICH Kidney Chromophobe 腎嫌色細胞癌
KIPAN Pan-kidney cohort (KICH+KIRC+KIRP) 混合腎癌
KIRC Kidney renal clear cell carcinoma 腎透明細胞癌
KIRP Kidney renal papillary cell carcinoma 腎乳頭狀細胞癌
LAML Acute Myeloid Leukemia 急性髓細胞樣白血病
LGG Brain Lower Grade Glioma 腦低級別膠質瘤
LIHC Liver hepatocellular carcinoma 肝細胞肝癌
LUAD Lung adenocarcinoma 肺腺癌
LUSC Lung squamous cell carcinoma 肺鱗癌
MESO Mesothelioma 間皮瘤
OV Ovarian serous cystadenocarcinoma 卵巢漿液性囊腺癌
PAAD Pancreatic adenocarcinoma 胰腺癌
PCPG Pheochromocytoma and Paraganglioma 嗜鉻細胞瘤和副神經節瘤
PRAD Prostate adenocarcinoma 前列腺癌
READ Rectum adenocarcinoma 直腸腺癌
SARC Sarcoma 肉瘤
SKCM Skin Cutaneous Melanoma 皮膚黑色素瘤
STAD Stomach adenocarcinoma 胃癌
STES Stomach and Esophageal carcinoma 胃和食管癌
TGCT Testicular Germ Cell Tumors 睾丸癌
THCA Thyroid carcinoma 甲狀腺癌
THYM Thymoma 胸腺癌
UCEC Uterine Corpus Endometrial Carcinoma 子宮內膜癌
UCS Uterine Carcinosarcoma 子宮肉瘤
UVM Uveal Melanoma 葡萄膜黑色素瘤
❻ tcga資料庫firebrowse數據怎麼分析
TCGA由NCI牽頭,作為美國攻克癌計劃的一個大的project,投入巨大的人力和資金,較內早的進行深度測序容,提供Gene expression, DNA methylation, Copy Number Variant, Mutation還有更深度的exon expression外顯子測序結果,其臨床數據整理的相對最完整,指標最多。在TCGA中直接下載數據的方法較為繁瑣,但是有多個網站提供TCGA數據(包括表達和臨床等)完善的整理:GDAC, Cancer Browser和cBioportal是其中整理最為完整和可靠的。GDAC由美國MIT和Harvard共建的Broadinstitute運行,UCSC運行著Cancer Browser 和Xena, cBioportal由MemorialSloan-Kettering Cancer Cente建立,提供較為完善的TCGA數據為基礎的各類信息檢索服務。
❼ 你曉得NOS嗎(⊙_⊙)
醫學術語中的「NOS」是指一氧化氮合酶。
❽ seer資料庫中NOS代表什麼
NOS 在網路知識方面是網路操作系統的簡稱,即是Network operating system,NOS提供文件服務、列印服務、資料庫服務、通信服務、信息服務、分布式服務、網路管理服務和Internet/Intranet服務。 NOS全稱NITROUS OXIDE SYSTEM,即氮氣加速系統。是由美國HOLLEY公司開發生產的產品。在目前的世界直線加速賽(DRAG RACING)中,為了在瞬間提高大比率馬力,利用的液態氮氧化物系統正是NOS。其實,早在二次世界大戰中德國空軍已開始使用NOS,戰爭結束後才逐漸被用於直線加速賽。NOS的工作原理是把一氧化二氮(N2O),即俗稱的笑氣(LAUGH GAS)高壓形成液態後裝入鋼瓶中,然後在引擎內與空氣一道充當助燃劑與燃料混合燃燒(其可放出氧氣和氮氣,其中氧氣就是關鍵的助燃氣體,而氮氣又可協助降溫),以此增加燃料燃燒的完整度,提升馬力。由於NOS提供了額外的助燃能力(氧氣量大)所以安裝NOS後還要對應增加燃油噴量與之配合,"要想馬兒跑,就要馬兒多吃草。"燃料就是引擎的草,引擎的動力也因此得到進一步的提升。NOS與渦輪增壓、機械增壓一樣,都是為了增加引擎混合氣中的氧氣含量而提升燃燒效率增加馬力,不同的是NOS是直接利用氧化物,而後兩者則是通過外力增加空氣密度來達到目的。也許有人會問為什麼不直接使用氧氣而用一氧化二氮呢?那是因為用氧氣難以控制引擎的穩定性(高溫和爆炸力),所以極少直接使用氧氣。 改裝店建議NOS系統每次使用時間不可超過1分鍾,但其實按照系統開關要盡油門才開啟來看,一般也就幾秒的使用時間就可令轉速超6000而令電腦自動斷油。