A. 通俗易懂WGCNA (1)
每當我使用一個新的軟體/演算法時(相較於組內之前的研究),導師總喜歡問我背後的原理。她可以不懂,但我必須給她講明白。
因此,我想試著用通俗易懂的語言為大家講一下WGCNA~
Gene A的表達,可能會影響另一個基因(比如gene B)的表達。若前者是轉錄因子,那麼多半會促進後者的轉錄增加;若前者是抑制子(repressor),則可能會導致後者的表達受到抑制。
隨著研究的越來越深入,我們發現。這種調控關系,不是一對一的,甚至不是一對多的,而是多對多的。這里以大家耳熟能詳的RNA Pol II舉例,這是一個真核生物中蛋白質編碼基因轉錄所需的RNA聚合酶。
好了,現在我們知道基因的調控關系是多對多的,那麼我們該怎麼描述這種關系呢?搞數學的那幫傢伙早早的就把這玩意研究透了,用圖來描述這種網路關系,也就是下面這玩意。
研究之透徹,光是想入門就需要先學一下離散數學,然後再上一門叫作圖論的課。當然,深入學習雖然難,但是對於我們來說,只用簡單的了解一下其基本概念就足以。
上面的圖,我們稱之為網路。網路中的每個點我們稱為頂點,用於表示某個事物或者對象。其中的每條邊,用於表示事物之間的關系。一個點所連接的線的個數,我們稱之為度(degree)。這張網路,如果放到基因調控的背景下,其中的每個點代表一個基因,其中的每條邊代表兩個基因之間的調控關系。
看到這里,愛思考的朋友肯定就想到了,這個網路圖似乎沒有方向。這似乎和我們所了解的調控網路不太一致,於是我們這里引入有向圖的概念,也就是下面這玩意。
有了方向,我們就知道在一張調控網路中,究竟是gene A調控 gene B還是gene B調控gene A。但是這張圖和我們想像中的調控網路還是差了點意思,調控網路中,通常是若干個基因起著重要作用,調控大部分基因,比如轉錄因子/蛋白激酶。而其他的大部分基因都是打醬油的,負責好自己的本職工作,再老老實實的聽上游基因的調控就行了。就如下圖
因此,在這里,我們引入一個新的概念,無尺度網路或者說是無標度網路 (scale-free network)。這是帶有一類特性的復雜網路,其典型特徵是在網路中的大部分節點只和很少節點連接,而有極少的節點與非常多的節點連接。
而這類關鍵基因在調控網路中,因為其連通性很好(degree很高,或者說是與很多基因都有調控關系),經常會將其稱呼為hub-gene。
好了,講到這里,我們基本上懂了網路的概念,以及基因調控的概念。接下來再引入基因共表達調控,就不會顯的那麼突兀了。
隨著高通量測序技術的發展,我們可用的數據已經越來越多。傳統的兩兩比對分析,會讓我們的計算量爆炸性的增加。比如差異基因表達分析,如果我們有五個時間點的樣本,兩兩比較就要比較4+3+2+1=10次。不僅計算量大,而且分析復雜,讓本就不簡單的問題更為復雜。
為了解決這么一個問題,我們必須利用新的方法去分析這類問題,而WGCNA就是一種剛好適合這種復雜樣本的分析方法。
WGCNA全稱是Weighted Gene Co-expression Network analysis,翻譯成中文就是加權基因共表達網路分析。聽名字我們就知道,該分析最重要的就是加權和共表達。而這個玩意最主要的目的就是幫助我們縮小范圍,篩掉無用信息,找到符合我們預期的關鍵基因。
共表達,就是去鑒定那些高度協同變化的基因集,比如某一類基因在不同的樣本中都是一起上升,一起下降,表達模式基本一致。
而加權就是在分析的時候,賦予基因共表達關系一定的權重。比如gene A和gene B的相關性更高,那這倆基因之間的權重也就越高,同樣的,若二者相關性較低,則它倆之間的權重也就越低。這種加權網路,可以用下圖表示,其中權重越高,則兩個點之間的連線越粗。
需要注意的是,基因共表達網路是一種無向圖,不指定共表達關系的方向和類型。然而在基因調控網路中,邊是有方向的,代表著反應、變換、互作、激活或者抑制的生化過程。而基因共表達網路並不嘗試判定因果關系,邊只代表基因之間的相關或者依賴關系。有類似功能或參與統一生物功能的基因會產生很多相互作用,在基因共表達網路中會體現為模塊或連接豐富的子圖。
Note: 基因共表達網路不具有方向性,但我們可以關注調控的正負。即,我們可以關注高度相關的基因,也可以只關注高度正相關的基因,具體的設定可以關注後續正文內容