Ⅰ NCBI選擇資料庫
原理很簡單後者是前者的子集。chromosome只包含所有已經測序的基因組數據。估計你的序列可能只是在高等生物中保守,所以才會出現選擇chromosome資料庫時相似數量下降非常多。
在做BLAST的時候,我們通常需要根據不同的目的選擇不同的資料庫。例如,要看一下測的序列是不是子集所期望的序列,以及,那nr資料庫是最好的選擇。至於以誰為准,因需要解決的問題而異。讀一下blast每個資料庫的定義,對於你選擇資料庫最有幫助。有一個基本原則是:nr資料庫可以滿足絕大多數的需求。少數特殊需求可以通過其他資料庫完成,例如最近30天內的更新序列,搜索新基因這是必查的;題目中的chromosome資料庫是只包含了全基因組或全染色體的數據。詳參NCBI Blast說明。
http://www.ncbi.nlm.nih.gov/BLAST/blastcgihelp.shtml#nucleotide_databases
Ⅱ 如何用NCBI資料庫查病毒全基因的背景信息
選擇NCBI genome資料庫,這個庫中收錄目前經過測序的所有物種的參考基因組。你只要輸入你需要的病毒名稱比如HIV,就可以看到這個病毒的全基因組序列。你還可以點擊某條序列,進入到詳細信息界面,就可以看到這個序列的來源。
Ⅲ 誰知道怎樣在NCBI中找資料庫
NCBI 分類學資料庫(taxonomy database)不是分類學或系統發育信息的信息源(primary source),而且也沒有自己的一套完整的分類學系統,相反它只是努力整合各種各樣來源的系統發育和分類學的知識,包括發表的文獻、基於網路的資料庫、序列提交者的建議以及來自NCBI 外部的分類學專家。因此NCBI 的分類學資料庫不是一個系統發育或分類學的「專家資料庫」(Wheeler et al., 2000)。
獲取序列所對應的分類學信息有兩種方法。
一種方法,從NCBI 網站下載gi與taxid 對應表,在Taxonomy 資料庫的FTP 地址下載。這個目錄下有多個壓縮文件,其中針對Windows 操作系統的兩個針對蛋白質序列和核苷酸序列的壓縮文件分別是gi_taxid_prot.dmp.gz 和gi_taxid_nucl.dmp.gz 文件。這兩個文件都只有兩列,左邊為gi 號,右邊為Taxid。由於這些文件非常大,因此用瀏覽器來打開這些文件幾乎是不可能的。隨著時間的推移,這兩個文件會越來越大,不過速度不會是指數增長的,並且在美國東部時間的每個星期一2:00 am NCBI 會對其進行更新。
對於Windows 用戶還有一個文件稱為taxmp.zip 文件。文件解壓縮後包括1 個*.prt 文件和6 個*.dmp 文件。Gencode.dmp 文件保存有不同的密碼子表,與同目錄的gc.prt 聯合使用;merged.dmp 是保存有合並的taxid 號的對應表;nodes.dmp 是結點信息;division.dmp 是較大的幾個分類;names.dmp 結點名稱信息,每個id 對應多行。這些數據被Phylogenie 軟體包中的blammer 程序用於構建進化樹。
利用ftp 地址的連接利用Http 或ftp 方式將文件下載到本地,通過本地程序或腳本搜索文本,來建立gi 號與Taxid 之間的聯系(圖)。這種方法比較適合於在線服務的Web 形式的程序,通過在本地不斷地及時更新程序就可以完成這項工作。
第二種方法是對Taxonomy 資料庫進行API 分析。NCBI 用來保存Taxonomy信息的資料庫名稱為TAXON。
Ⅳ ncbi,embl和什麼並稱三大數據庫
DDBJ:DNA Data Base of Japan 是日本人建立的核酸資料庫;
NCBI中的Genbank是美國建立的核酸資料庫;
EMBL是歐洲建里的核酸資料庫;
這三個資料庫是連通的,數據共享。
Ⅳ ncbi-cdd資料庫 怎麼用
CDS(Coding Sequence)特徵域被認為是DNA生成蛋白質的翻譯指令,利用CDS特徵域構建外顯子-內含子內資料庫(Exon-Intron Database,EID)是研容究內含子起源、進化和功能的重要手段