㈠ multiple whole genome alignment
寫在前面 :在上億年的進化歷程中,基因組經歷了大大小小的改變。從小的核苷酸突變、插入、缺失到大的基因缺失、重復、基因組重排和水平基因轉移。基因組比對可以通過比對序列中的同源區域,找到DNA中的改變。理解每種改變的速率和模式將有助於了解多種多樣的生物學過程。
經過google,高分推薦的multiple whole genome alignment軟體有Mavue, Mugsy和Multiz三個。這三個軟體都可以通過conda安裝。
但相比於conda,源碼附帶的readme是我們了解這個軟體的重要參考,因此我更偏愛源碼。
Mugsy是Angiuoli SV和Salzberg SL於2010年,開發的一款用於multiple whole genome alignment 的工具。
特點 :
文件要求
選項
MAF格式
mugsy 腳本可以完成multiple alignment 的所有過程。
其中,核心程序是:
例子:
選擇10個Lp genome,進行預實驗,記錄時間。
話說好久啊,10個基因組花了3個小時。那我有500多個···
Mugsy安裝目錄下有轉換文件:
MAF格式:
FASTA格式:
把比對信息抽出來,抽成一塊一塊的,不再是原來摞在一起的:
第一個參數是fasta文件,第二個是單一文件的輸出目錄
然後傳到MEGAX里就可以看了。
Mauve分為原始Mauve演算法和progressive Mauve演算法。
original Mauve 的劣勢:
progressiveMauve演算法的優勢:
文件格式
輸入文件可以是FastA,Multi-FastA或 GenBank。如果 一個文件中有多個序列,即Multi-FastA,Mauve會先將它們合並起來 ,再將合並後的序列和其他序列比對。
選項汪纖
重要參數的默認設置
比對完成後,Mauve會產生多個比對相關文件。下面介紹一下每個文件包含的信息及對應的格式。
.alignment文件以 eXtended Multi-FastA格式存儲Mauve產生的比對數據。
XMFA格式中存儲了多個共線性塊的比對情況,不同共線性塊以 = 分割。
每個共線性塊中,一個基因組有一條對應的fasta格式的序列。其中,定義行給出這條序列位於基因組的位置和方向(正負鏈)。
這些共線性塊共同組成了基因組比對結果。
Mauve略微改造了下xmfa格式,要求基因組序列中的核苷酸能且僅能出現一次。
.island文件中存儲了比對中發現的genomic islands,以tab鍵分割。
Island指的是比對中一部分基因組有,而另一部分基因組沒有的區域。
一個跡鄭island由一個序列的基因組坐標定義,其中另一個基因組在比對的那部分中包含長度為n或更長的缺口。缺口的長度n可以人為定義。是不是很拗口,看下例子就明白了。
設定n=5,則稱基因組0和2在5-10位置上有個島
對應的.islands文件中,一行記錄一個島。格式:基因組A➡️島最左側在A中的位置➡️島最右側在A中的位置➡️基因組B➡️島最左側在B中的位置➡️島最右側在B中的位置。
第一行記錄在基因組0中,核苷酸4至11與基因組1中的核苷酸4至5對齊。
島的長姿陵頌度=|(rightA - leftA) - (rightB - leftB)|。
什麼是骨架,支撐性的東西。
.backbone文件存儲了在所有基因組中都是保守的比對區域。
保守區域定義為長度大於等於x,期間gap不超過y個核苷酸的alignment片段。
來自第一個基因組的片段[22,256-22,371]分別在第二個[20,147-20,299]和第三個基因組[22,255-22,370]中保守。
跟original mauve不同的是,progressive mauve的backbone文件不再要求在所有基因組中都是保守的, align regions conserved among two or more genomes 。backbone文件按照 seq_0_leftend 列排序。
可以從backbone文件中推出island位置
行和列都是基因組文件,按照輸入順序排序。
0代表沒有一個相同的核苷酸,1代表每個位置的核苷酸都是相同的。
記錄了SNP模式(按照輸入順序排序)以及SNP在每個基因組中的位置。
第一行列出了4個同源基因,每個基因分別來自一個基因組。0:Z03:2818-3750中:
第2行中,2::2801-3733代表該區域沒有注釋到的基因,因此沒有locus_tag,但是是同源的。
第3行中,基因組1上注釋到了兩個基因。
第4行中,基因組2上沒有注釋到基因。
相同的測試文件,Mauve用了大約45分鍾。這明明比Mugsy快好吧···
有LASTZ+ Multiz和LAST+ Multiz兩種方案。鑒於UCSC用lastz,我就先試試第一種方案。
https://github.com/mcfrith/last-genome-alignments/issues/7
因為用的是UCSC的自動化流程-doBlastzChainNet.pl,所以需要配置一些東西
ucsc上的doBlastzChainNet.pl可以自動完成pairwise alignement的所有步驟,包括partition, blastz, cat, chainRun, chainMerge, net, load, download, cleanup, syntenicNet。最後直接得到可用於Multiz的結果文件。
基因組文件需要先壓縮成gz格式,然後再用faToTwoBit將基因組文件轉為.2bit格式,用twoBitInfo獲取各染色體的信息。
創建一個名為DEF的文件,裡面為lastz所用參數。
參數意義詳見: http://genomewiki.ucsc.e/index.php/DoBlastzChainNet.pl
為了縮短比對時間,將genome切成了chunk。為了充分利用多核系統,UCSC開發了parasol系統,用於管理任務。
a. 比對前,要先開啟parasol
b. 比對中
c. 比對後
最後 BASE/axtChain/target.query.synNet.maf 為結果文件,作為Multiz的輸入文件。
合並pairwise的結果:
寫在最後:
㈡ 文件格式
文件格式就是文件的類型,實在太多了,舉不勝舉
主要有幾大類回:文本、圖片、影音答、程序等
每一大類內部比較容易兼容,但也有的網站為了保護自己的權益,不允許其它軟體兼容
文件格式,有很多,簡單來說,不同的擴展名,就代表不同的格式,
你可以在,"我的電腦"-->菜單中的"工具"-->"文件夾選項"-->"文件類型",
就可以看到,你文件的格式都有哪些與含義
轉換呢,要看什麼類型了,如果文本類(*.txt,*.DOC,*.ini)等,都可以word打開轉換
如果,*.MP3,*.WAV,等之類,就要用音樂類的軟體了,更多,可以去www.googel,com搜搜吧
㈢ file控制項選擇上傳文件確定後觸發的js事件是哪個
file控制項選擇上傳文件確定後觸發的js事件是onchange事件。
㈣ 掃描圖片時出現的這幾種格式有什麼區別
bmp
MIME類型:image/bmp
固有名稱:Windows點陣圖
描述:最常被Microsoft Windows 程序以及其本身使用的格式。可以使用無損的數據壓縮,但是一些程序只能使用不進行壓縮的文件。
.iff, .ilbm
固有名稱:互換檔案格式(Interchange file format / Interleave bitmap)
描述:在Amiga機上很受歡迎。ILBM是IFF的圖表類型格式,可以包含更多的
圖片。
.tiff, .tif
MIME類型:image/tiff
固有名稱:標簽圖像文件格式
描述:大量的用於傳統圖像印刷,可進行有損或無損壓縮,但是很多程序只支持可選項目的一部分功能。
.png
MIME類型:image/png
固有名稱:可移植的網路圖象
描述:無損壓縮點陣圖格式。起初被設計用於代替在互聯網上的GIF格式文件。與GIF的專利權沒有聯系。
.gif
MIME類型:image/gif
固有名稱:圖形交換格式
描述:在網路上被廣泛使用,但有時也會因為專利權的原因而不使用該圖形格式。支持動畫圖像,支持256色,對真彩圖片進行有損壓縮。使用多禎可以提高顏色准確度。
.jpeg .jpg
MIME類型:image/jpeg
固有名稱:聯合圖象專家組
描述:在網路上廣泛使用於存儲相片。使用有損壓縮,質量可以根據壓縮的設置而不同。
.mng
MIME類型:video/x-mng
固有名稱:Multiple-image Network Graphics
描述:使用類似於PNG和JPEG的數據流的動畫格式,起初被設計成GIF的替代格式。與GIF的專利權沒有聯系。
.xpm image/x-xpm
固有名稱:彩色圖象文件格式
描述:在UNIX平台的X Windows System下使用廣泛的格式。一種不使用壓縮的ASCII格式
.psd
固有名稱:Photoshop文件
描述:Photoshop文件的標准格式。有很多諸如圖層的額外功能。只被很少其它的軟體支持。
.psp
固有名稱:Paint Shop Pro文件
描述:Paint Shop Pro文件的標准格式,類似於為Photoshop的.psd 。被很少程序支持。
.xcf
固有名稱:eXperimental Computing Facility
描述:具有很多諸如圖層的額外特性,主要使用於GIMP,但是也可以被ImageMagick讀取。
.ppm
固有名稱:Portable Pixmap Format
描述:很簡單的圖形格式,使用於交換點陣圖。
㈤ mdi是什麼格式
MDI擴展名的文件格式是從TIFF(標記圖像文件格式)擴展和開發的,因此MDI文件內(微軟文件影像格式)基本上容可以說是一個基於標記的圖形格式文件。
MDI格式文件是為了印刷而掃描一個電子文檔所將其抓換成圖形文件(將文字內容轉換成圖片,便於印刷),也可以使用OCR(光學字元識別)軟體識別出MDI文件中的內容讓後將其轉換成word等電子文檔格式。
(5)multiple文件格式擴展閱讀:
如果是SDI應用程序,從CFrameWnd類派生邊框窗口類,邊框窗口的客戶子窗口(MDIClient)直接包含視窗口;如果是MDI應用程序,從CMDIFrameWnd類派生邊框窗口類,邊框窗口的客戶子窗口(MDIClient)直接包含文檔邊框窗口。
如果要支持工具條、狀態欄,則派生的邊框窗口類還要添加CToolBar和CStatusBar類型的成員變數,以及在一個OnCreate消息處理函數中初始化這兩個控制窗口。
邊框窗口用來管理文檔邊框窗口、視窗口、工具條、菜單、加速鍵等,協調半模式狀態(如上下文的幫助(SHIFT+F1模式)和列印預覽)。