A. 通俗易懂WGCNA (1)
每当我使用一个新的软件/算法时(相较于组内之前的研究),导师总喜欢问我背后的原理。她可以不懂,但我必须给她讲明白。
因此,我想试着用通俗易懂的语言为大家讲一下WGCNA~
Gene A的表达,可能会影响另一个基因(比如gene B)的表达。若前者是转录因子,那么多半会促进后者的转录增加;若前者是抑制子(repressor),则可能会导致后者的表达受到抑制。
随着研究的越来越深入,我们发现。这种调控关系,不是一对一的,甚至不是一对多的,而是多对多的。这里以大家耳熟能详的RNA Pol II举例,这是一个真核生物中蛋白质编码基因转录所需的RNA聚合酶。
好了,现在我们知道基因的调控关系是多对多的,那么我们该怎么描述这种关系呢?搞数学的那帮家伙早早的就把这玩意研究透了,用图来描述这种网络关系,也就是下面这玩意。
研究之透彻,光是想入门就需要先学一下离散数学,然后再上一门叫作图论的课。当然,深入学习虽然难,但是对于我们来说,只用简单的了解一下其基本概念就足以。
上面的图,我们称之为网络。网络中的每个点我们称为顶点,用于表示某个事物或者对象。其中的每条边,用于表示事物之间的关系。一个点所连接的线的个数,我们称之为度(degree)。这张网络,如果放到基因调控的背景下,其中的每个点代表一个基因,其中的每条边代表两个基因之间的调控关系。
看到这里,爱思考的朋友肯定就想到了,这个网络图似乎没有方向。这似乎和我们所了解的调控网络不太一致,于是我们这里引入有向图的概念,也就是下面这玩意。
有了方向,我们就知道在一张调控网络中,究竟是gene A调控 gene B还是gene B调控gene A。但是这张图和我们想象中的调控网络还是差了点意思,调控网络中,通常是若干个基因起着重要作用,调控大部分基因,比如转录因子/蛋白激酶。而其他的大部分基因都是打酱油的,负责好自己的本职工作,再老老实实的听上游基因的调控就行了。就如下图
因此,在这里,我们引入一个新的概念,无尺度网络或者说是无标度网络 (scale-free network)。这是带有一类特性的复杂网络,其典型特征是在网络中的大部分节点只和很少节点连接,而有极少的节点与非常多的节点连接。
而这类关键基因在调控网络中,因为其连通性很好(degree很高,或者说是与很多基因都有调控关系),经常会将其称呼为hub-gene。
好了,讲到这里,我们基本上懂了网络的概念,以及基因调控的概念。接下来再引入基因共表达调控,就不会显的那么突兀了。
随着高通量测序技术的发展,我们可用的数据已经越来越多。传统的两两比对分析,会让我们的计算量爆炸性的增加。比如差异基因表达分析,如果我们有五个时间点的样本,两两比较就要比较4+3+2+1=10次。不仅计算量大,而且分析复杂,让本就不简单的问题更为复杂。
为了解决这么一个问题,我们必须利用新的方法去分析这类问题,而WGCNA就是一种刚好适合这种复杂样本的分析方法。
WGCNA全称是Weighted Gene Co-expression Network analysis,翻译成中文就是加权基因共表达网络分析。听名字我们就知道,该分析最重要的就是加权和共表达。而这个玩意最主要的目的就是帮助我们缩小范围,筛掉无用信息,找到符合我们预期的关键基因。
共表达,就是去鉴定那些高度协同变化的基因集,比如某一类基因在不同的样本中都是一起上升,一起下降,表达模式基本一致。
而加权就是在分析的时候,赋予基因共表达关系一定的权重。比如gene A和gene B的相关性更高,那这俩基因之间的权重也就越高,同样的,若二者相关性较低,则它俩之间的权重也就越低。这种加权网络,可以用下图表示,其中权重越高,则两个点之间的连线越粗。
需要注意的是,基因共表达网络是一种无向图,不指定共表达关系的方向和类型。然而在基因调控网络中,边是有方向的,代表着反应、变换、互作、激活或者抑制的生化过程。而基因共表达网络并不尝试判定因果关系,边只代表基因之间的相关或者依赖关系。有类似功能或参与统一生物功能的基因会产生很多相互作用,在基因共表达网络中会体现为模块或连接丰富的子图。
Note: 基因共表达网络不具有方向性,但我们可以关注调控的正负。即,我们可以关注高度相关的基因,也可以只关注高度正相关的基因,具体的设定可以关注后续正文内容