『壹』 什麼是Genbank,它的主要用途是什麼
GenBank序列資料庫
GenBank是美國國立衛生研究院(NIH)維護的基因序列資料庫,匯集並注釋了所有公開的核酸以及蛋白質序列。每個紀錄代表了一個單獨的、連續的、帶有注釋的DNA或RNA片段。目前GenBank中所有的紀錄均來自於最初作者向DNA資料庫的直接提交。
蛋白質資料庫:
60年代初,Dayhoff和他的同事們收集了所有當時已知的氨基酸序列,這就是《蛋白質序列與結構圖冊》。這一蛋白質資料庫後來成為蛋白質信息資源PIR。
核苷酸資料庫:
1982年在歐洲分子生物學實驗室(EMBL)誕生,隨即就開始了一個資料庫爆炸的時代。後來NIH搞了GenBank。日本的DNA資料庫(DDBJ)加入了數據收集的合作。國際DNA序列資料庫合作計劃。規定了數據記錄和更新的規則。
國際核苷酸序列資料庫合作成員GenBank--DDBJ--EMBL。GenBank指的是DDBJ/EMBL/GenBank
開發利用這些信息的工具(如NCBI的信息檢索系統 Entrez http://www.ncbi.nlm.nih.gov/Entrez/)
編碼序列(CDS):
大多數蛋白質序列都不是直接由實驗確定的,而是通過DNA序列得到的。這種方法需要進行大量的實驗、計算以及相似性比對工作。他也賦予一個產物名稱,或者功能說明(通過主觀的對相似性比對的分析)。
資料庫的格式與內容:
資料庫被用來存放原始數據和一系列附加的信息。不同的檢索工具和程序利用了這些信息中的不同部分。
FASTA 格式:廣泛應用於許多分子生物學軟體包之中。作為最簡單的情況,大於號(>)表示一個新文件的開始。通常60個字元一行。
>gb|AF150991|AF150991 Trichoplusia ni single capsid nuclear polyhedrosis virus.ensures greater occlusion body stabilityproct--p10 / p10 protein
>gb|AF275264|AF275264 Helicoverpa zea nuclear polyhedrosis virus.complementproct--e66-like protein (partial DNA sequence)
>gb|AF275264|AF275264 Helicoverpa zea nuclear polyhedrosis virus.complementproct--p13
>gb|AF275264|AF275264 Helicoverpa zea nuclear polyhedrosis virus.proct--Orf50-like protein
ASN.1
Genbank flatfile:
頭部:
始於LOCUS行---LOCUS名稱,序列長度,生物分子的類型(ss或ds DNA,RNA,tRNA,rRNA, mRNA),GenBank分類碼,數據公開日期
DEFINITION行---總結紀錄的生物意義。
檢索號---是從資料庫中檢索一個記錄的主要關鍵詞。格式:1+5或2+6。所有的GenBank記錄都只有一個單獨的ACCESSION行。
NID---行表示核苷酸序列的gi號碼(geninfo identifier)。一個gi號碼對應於一個核苷酸序列。當序列改變時,gi號也改變,但檢索號不變。
KEYWORDS---
SOURCS---
ORGANISM---
REFERENCE---
AUTHORS---
TITLE---
JOURNAL---