可以使用ls命令實現這一功能。ls命令是一個非常有用的查看文件與目錄的命令,list之意,它的參數非常多。ls命令默認是按照文件名的字母的順序列印出當前目錄的文件及文件夾。
加上-S參數,就可以根據文件的大小進行排序,默認是從大到小的順序。在此基礎上加上參數-r變成-Sr,就可以一自小到大的順序列印出文件。
一般列印文件時,會加上-l參數,編程-lSr,列印出文件的詳細信息,這樣就能明確地看到,列印出的文件的大小是從小到大遞增的。
⑵ 如何通過gff文件中的exon位置從基因組中提取序列 並把同一個轉錄本的exon合並起來
你好可以用linux命令,grep抓取exon關鍵詞,根據位置信息,bedtools命令提取序列
⑶ GFF3文件
發表於 <time class="entry-date" datetime="2013-05-22T22:22:12+00:00">2013 年 5 月 22 日</time>
</header>
GFF3的官方介紹: Generic Feature Format Version 3 (GFF3)
GFF3格式文件為文本文件,分為9列,以TAB分開。控制符使用 RFC 3986 Percent-Encoding 編碼。比如:%20 代表著ASCII的空格。
9列文件依次是:
1. seqid:參考序列的id。該id的取名不能以』>』開頭,不能包含空格。
2. source :注釋的來源。如果未知,則用點(.)代替。一般指明產生此gff3文件的軟體或方法。搭清
3. type :屬性的類型。建議使用符合SO慣例的名稱(sequence ontology,參看[[Sequence Ontology Project]]) ,如gene,repeat_region,exon,CDS等。
4. start position :屬性對應片段的起點。從1開始計數。
5. end position :屬性對應片段的終點。一般比起點的數值要大。
6. score :得分,對於一些可以量化的屬性,可以在此設置一個數值以表示程度的不同。如果為空,用點(.)代替。
7. strand :「+」表示正鏈,「-」表示負鏈,「.」表示不需要指定正負鏈。
8. phase :步進。對於編碼蛋白質的CDS來說,本列指定下一個密碼子開始的位置。可以是0,1或2,表示到達下一個密碼子需要跳過的鹼基個數。
對於其它屬性,則用點(.)代替。
9. attributes :屬襪枝御性
一個包含眾多屬性的列表。格式為「標簽=值」(tag=value)。不同屬性之間以分號相隔。可以存在空格,不過若有「,=;」則用URL轉義(URL escaping rule),同時TAB也需要轉換為「%09」表示。所有以大寫字幕開頭的標簽被保留,用於大眾認可的用途,而以小寫字母開頭的標簽則根據自己安排隨意應用。
常用的標簽有:
ID
Feature的標識。該ID具有唯一性。
Name
Feature的展示名稱。Name的值在可視化的時候得到展示。因此,Name可以根據自己展示的需要隨意取值。
Alias
Feature的第2個Name。
Parent
指明feature所從屬的上一級ID。用於將exons聚集成transcript,將transripts聚集成gene。
Target
指明比對的目標區域,一般用於表明序列的比對結果。格式為」target_id start end [strand]」,其中strand是可選的(「+」或」-「), target_id中如果包含空格,則要轉換成』%20』。
Gap
比告岩對結果的gap信息,和Target一起,用於表明序列的比對結果。
Note
文本描述
Is_circular
表明featrue是否為環化的。用於環狀基因組序列。
同一個tag如果有多個值,則多個值之間使用逗號隔開,比如:
Parent=AF2312,AB2812,abc-3
Alias=M19211,gna-12,GAMMA-GLOBULIN
能夠使用多個值的tag有:Parent, Alias, Note, Dbxref and Ontology_term。
檢驗GFF3格式文件: GFF3 Validator