❶ DESeq2处理TCGA数据库Seq-count数据
1、DESeq2需要导入两个数据集:mycounts, colData。先说mycounts,这就是处理完的TCGA数据RNAmatrix.txt,直接读入即可。
2、colData就是对每个样本的一个情况说明。这个可以生成,也可以自己写一个保存为csv格式。我一般自己写。
3、构建矩阵
4、输出结果
❷ TCGA数据库介绍
肿瘤基因组图谱 (TCGA) 计划由美国 National Cancer Institute(NCI) 和 National Human Genome Research Institute(NHGRI)于 2006 年联合启动的项目,目前共计研究 36 种癌症类型。
TCGA 利用大规模测序为主的基因组分析技术,通过广泛的合作,理解癌症的分子机制。提高人们对癌症发病分子基础的科学认识及提高我们诊断、治疗和预防癌症的能力。 最终完成一套完整的与所有癌症基因组改变相关的「图谱」。
TCGA临床数据有两种:
数据文件有 (HTSeq count/ FPKM/ FPKM-UQ)3种
介绍链接
生成raw read counts数据记录==在mirnas.quantification.txt==文件中。多比对用cross-mapped列标注。文件中包括associates miRNA IDs with read count and a normalized count in reads-per-million-miRNA-mapped。
RPM counts记录在 ==isoforms==.quantification.txt文件中。文件中包括miRNA表达量定量分析中的所有列,除此之外还增加了isoforms的基因组坐标信息以及miRNA信息(前体或成熟&accession)
使用Affymetrix SNP 6.0芯片,基于TCGA level 2 数据,最终生成txt文件,包含5列(片段名称,染色体,基因组位置,结合到芯片上的探针数量,seqment_mean)
包括以下几个平台:
文件包括以下这些列:
❸ tcga数据库样本哪些是肿瘤哪些是正常
答案就在TCGAbarcode,样本标签描述了样本类型,是正常的还是异常的。还是对照组。比如胶质瘤RNAseq的barcode,有174个样本类似于这个:
TCGA-06-0681-11A-41R-A36H-07
TCGA-06-0649-01B-01R-1849-01
第四个字段:11A和01B描述的就是样本类型,1-9是肿瘤,10-19是正常,20-29是对照。A和B我也不知道啥意思。由于TCGAbarcode字段宽度是严格的。因此用substr就可提取
names=colnames(RNAseq_dat)
a=as.numeric(substr(names,14,15))
table(a)
可以看见数据中有5个是正常组织样本
----------------------
Xena网站(网页链接)有整理好的TCGA数据,包括数据集和样本表格。样本表格数据详细,包含生存期,肿瘤分期分级,突变,亚型等等。
❹ 如何快速掌握TCGA数据库
参加培训班——最快速的方法。有些生物信息公司会针对高校教师和医师开生信培训班,我导师带着我上过几次,有TCGA、Oncomine和R的。缺点是价格贵,一次一天两三千,优点是上手快,而且会有后续服务,比如课上完后你在qq群里提问,一般公司技术人员都会给你解决。我放几张上完培训班后发的资料,是课上PPT转的PDF。另外再推荐一本中文教材,可以做补充用。优点是浅显易懂,缺点是不够深入且作者态度傲娇,但书还可以,《R语言与Bioconctor-生物信息学应用》,随着大数据时代的到来,各种生物类公共数据库井喷,其中就包括癌症领域熟为人知的癌症基因图谱The Cancer Genome Atlas (TCGA)数据库。TCGA由NCI牵头,作为美国攻克癌计划的一个大项目,投入了巨大的人力和物力,系统提供了癌症多组学测序和芯片数据,包括Gene expression, DNA methylation, Copy NumberVariation, Mutation等结果,同时也附有相应各测序样本的完整临床资料。TCGA为肿瘤基础医学和转化医学研究者提供了海量的基因组数据和与其关联的临床数据,这为挖掘有意义的基因组变化和发现影响肿瘤起始、发展、分化、转移等生物学机制提供了海量数据基础。然而传统的基础医学和转化医学研究者缺乏信息学基础来处理大规模癌症数据,因而在面对这些极其有价值的基因组数据时,往往心有余而力不足。作为医学信息领域研究者,我们需要将信息学和统计学知识运用到癌症基因组学数据分析的研究当中,作为连接大数据与基础医学研究者之间的一个纽带,帮助研究者去更好地挖掘探索这些数据。
❺ TCGA数据库中含有的癌症名称,简写和中文名称
Abbr 英文名称 中文名称
ACC Adrenocortical carcinoma 肾上腺皮质癌
BLCA Bladder Urothelial Carcinoma 膀胱尿路上皮癌
BRCA Breast invasive carcinoma 乳腺浸润癌
CESC Cervical squamous cell carcinoma and endocervical adenocarcinoma 宫颈鳞癌和腺癌
CHOL Cholangiocarcinoma 胆管癌
COAD Colon adenocarcinoma 结肠癌
COADREAD Colon adenocarcinoma/Rectum adenocarcinoma Esophageal carcinoma 结直肠癌
DLBC Lymphoid Neoplasm Diffuse Large B-cell Lymphoma 弥漫性大B细胞淋巴瘤
ESCA Esophageal carcinoma 食管癌
FPPP FFPE Pilot Phase II FFPE试点二期
GBM Glioblastoma multiforme 多形成性胶质细胞瘤
GBMLGG Glioma 胶质瘤
HNSC Head and Neck squamous cell carcinoma 头颈鳞状细胞癌
KICH Kidney Chromophobe 肾嫌色细胞癌
KIPAN Pan-kidney cohort (KICH+KIRC+KIRP) 混合肾癌
KIRC Kidney renal clear cell carcinoma 肾透明细胞癌
KIRP Kidney renal papillary cell carcinoma 肾乳头状细胞癌
LAML Acute Myeloid Leukemia 急性髓细胞样白血病
LGG Brain Lower Grade Glioma 脑低级别胶质瘤
LIHC Liver hepatocellular carcinoma 肝细胞肝癌
LUAD Lung adenocarcinoma 肺腺癌
LUSC Lung squamous cell carcinoma 肺鳞癌
MESO Mesothelioma 间皮瘤
OV Ovarian serous cystadenocarcinoma 卵巢浆液性囊腺癌
PAAD Pancreatic adenocarcinoma 胰腺癌
PCPG Pheochromocytoma and Paraganglioma 嗜铬细胞瘤和副神经节瘤
PRAD Prostate adenocarcinoma 前列腺癌
READ Rectum adenocarcinoma 直肠腺癌
SARC Sarcoma 肉瘤
SKCM Skin Cutaneous Melanoma 皮肤黑色素瘤
STAD Stomach adenocarcinoma 胃癌
STES Stomach and Esophageal carcinoma 胃和食管癌
TGCT Testicular Germ Cell Tumors 睾丸癌
THCA Thyroid carcinoma 甲状腺癌
THYM Thymoma 胸腺癌
UCEC Uterine Corpus Endometrial Carcinoma 子宫内膜癌
UCS Uterine Carcinosarcoma 子宫肉瘤
UVM Uveal Melanoma 葡萄膜黑色素瘤
❻ tcga数据库firebrowse数据怎么分析
TCGA由NCI牵头,作为美国攻克癌计划的一个大的project,投入巨大的人力和资金,较内早的进行深度测序容,提供Gene expression, DNA methylation, Copy Number Variant, Mutation还有更深度的exon expression外显子测序结果,其临床数据整理的相对最完整,指标最多。在TCGA中直接下载数据的方法较为繁琐,但是有多个网站提供TCGA数据(包括表达和临床等)完善的整理:GDAC, Cancer Browser和cBioportal是其中整理最为完整和可靠的。GDAC由美国MIT和Harvard共建的Broadinstitute运行,UCSC运行着Cancer Browser 和Xena, cBioportal由MemorialSloan-Kettering Cancer Cente建立,提供较为完善的TCGA数据为基础的各类信息检索服务。
❼ 你晓得NOS吗(⊙_⊙)
医学术语中的“NOS”是指一氧化氮合酶。
❽ seer数据库中NOS代表什么
NOS 在网络知识方面是网络操作系统的简称,即是Network operating system,NOS提供文件服务、打印服务、数据库服务、通信服务、信息服务、分布式服务、网络管理服务和Internet/Intranet服务。 NOS全称NITROUS OXIDE SYSTEM,即氮气加速系统。是由美国HOLLEY公司开发生产的产品。在目前的世界直线加速赛(DRAG RACING)中,为了在瞬间提高大比率马力,利用的液态氮氧化物系统正是NOS。其实,早在二次世界大战中德国空军已开始使用NOS,战争结束后才逐渐被用于直线加速赛。NOS的工作原理是把一氧化二氮(N2O),即俗称的笑气(LAUGH GAS)高压形成液态后装入钢瓶中,然后在引擎内与空气一道充当助燃剂与燃料混合燃烧(其可放出氧气和氮气,其中氧气就是关键的助燃气体,而氮气又可协助降温),以此增加燃料燃烧的完整度,提升马力。由于NOS提供了额外的助燃能力(氧气量大)所以安装NOS后还要对应增加燃油喷量与之配合,"要想马儿跑,就要马儿多吃草。"燃料就是引擎的草,引擎的动力也因此得到进一步的提升。NOS与涡轮增压、机械增压一样,都是为了增加引擎混合气中的氧气含量而提升燃烧效率增加马力,不同的是NOS是直接利用氧化物,而后两者则是通过外力增加空气密度来达到目的。也许有人会问为什么不直接使用氧气而用一氧化二氮呢?那是因为用氧气难以控制引擎的稳定性(高温和爆炸力),所以极少直接使用氧气。 改装店建议NOS系统每次使用时间不可超过1分钟,但其实按照系统开关要尽油门才开启来看,一般也就几秒的使用时间就可令转速超6000而令电脑自动断油。