1. 如何使用string資料庫預測蛋白質相互作用
蛋白質相互作用資料庫見下表所示: 資料庫名
BIND
DIP
IntAct
InterDom
MINT
STRING
HPRD
HPID
MPPI
蛋白質相互作用的預測方法很非常多,以下作了簡單的介紹
1) 系統發生譜
這個方法基於如下假定:功能相關的(functionally related)基因,在一組完全測序的基因組中預期同時存在或不存在,這種存在或不存在的模式(pattern)被稱作系統發育譜;如果兩個基因,它們的序列沒有同源性,但它們的系統發育譜一致或相似.可以推斷它們在功能上是相關的。
2
2) 基因鄰接
這個方法的依據是,在細菌基因組中,功能相關的基因緊密連鎖地存在於一個特定區域,構成一個操縱子,這種基因之間的鄰接關系,在物種演化過程種具有保守性,可以作為基因產物之間功能關系的指示。這個方法似乎只能適用於進化早期的結構簡單的微生物。所以在人的蛋白質相互作用預測時不採用這個方法。
3) 基因融合事件
這個方法基於如下假定:由於在物種演化過程中發生了基因融合事件,一個物種的兩個(或多個)相互作用的蛋白,在另一個物種中融合成為一條多肽鏈, 因而基因融合事件可以作為蛋白質功能相關或相互作用的指示。
4) 鏡像樹
這個方法的思想是,功能相關的蛋白質或同一個蛋白的域之間,受功能約束,其進化過程應該保持一致, 即呈現共進化(CO—evolution)特徵,通過構建和比較它們的系統發育樹,如果發現樹的拓撲結構顯示相似性,這種相似的樹被稱作鏡像樹,那麼,可以推測建樹基因的功能是相關的。
5) 突變關聯
物理上相互接觸的蛋白質, 比如處在同一個結構復合物中的蛋白質,其中一個蛋白質在進化過程中累計的殘基變化,通過在另一個蛋白質中發生相應的變化予以補償,這種現象被稱作關聯突變。
6)
序列信號關聯
3
通過檢查實驗上已經證實的相互作用蛋白質對,發現序列特徵信號
(sequence-signatures)在不同對的相互作用蛋白中重復地出現,這一現象被稱作序列信號關聯。利用序列域信號關聯作為相互作用蛋白質的識別指示,可以預測未知功能蛋白與已知蛋白的相互作用,減少直接實驗的搜索空間。
7) 保守的蛋白間相互作用
相互作用的蛋白質在物種演化過程中具有保守性,因此,可以通過在一個物種中建立的蛋白質相互作用網路,預測其它物種的蛋白質間相互作用。這是後基因組時代產生的一個分子進化概念,使人們聯想到直系同源基因(orthologs)和平行同源基因(paralogs)兩個概念。Walhout首先提出了」interologs」這個新概念,後由Matthews等利用酵母雙雜交法分析了1195個釀酒酵母相互作用蛋白在線蟲(C.elegans)中的保守性,獲得了
16%-31%線蟲保守相互作用蛋白,它們主要集中在核心代謝過程(core metabolic processes)並預期隨著親緣關系的遠近,保守性作相應變化。
8) 同源結構復合物
設想三維結構已知的蛋白質復合物,各自的同家族成員以同樣的方式發生相互作用.
9) 進化速率關聯
蛋白質的進化速率由這個蛋白質同其它蛋白質發生相互作用的數量決定,並呈負相關,即相互作用的數量越多進化速率越低,而不是通常設想的蛋白質的進化速率由這個蛋白質對機體的重要性決定,這是一個極重要的概念。Fraser等13Ol利用一組實驗上證實的酵母相互作用蛋白,量化分析了進化速率、適合度(fitness)和序列共進化(sequence CO—evolution)之間的關系;統計分析顯示,在酵母蛋白質相互作用網路中,連接點越多的蛋白質進化速率進化越低,可能的原因是,這些蛋白質需要與更多的相互作用伴體(partner)共進化。
10) 共鳴識別模型MRRM預測蛋白質相互作用
從蛋白質一級結構預測蛋白質相互作用,它假設生物分子(包括蛋白質和DNA)之間的相互作用是通過共鳴能量的傳遞來實現的,RRM恰當地引入了一些蛋白質的物理參數,並且運用了信號分析方法(Digital Signal Analysis,DSP)使得對於蛋白質和基因的分析脫離了局部性。
11) 通過Domain相互作用來預測蛋白質相互作用
Domain是蛋白質最小的功能單元,它們之間的相互作用一定程度上就決定了蛋白質之間的相互作用。按照這個方法將所有的氨基酸序列進行聚類,如果類與類之間的相互作用的序列對的個數超過了一定閾值,則表示與兩個類的代表序列同源的蛋白質之間都可能會發生相互作用。
12) 根據蛋白結構來預測蛋白相互作用
Lappe等人認為,雖然蛋白質之間的相互作用並不能直接用作預測,但是在結構上相似的蛋白質將有可能具有相似的功能,至少會給出一定的功能提示。分類的原則可按照SCOP給出的層次進行,分類方法是將已知序列的蛋白質相互作用對分別與SCOP的典型結構進行匹配,使之對應到每一個類中。預測已知與其他蛋白相互作用關系的蛋白的序列結構可以列出該蛋白結構組成的最大可能情況。