1. GWAS與GS模型介紹與比較
最近看了不少統計基因組方面的資料,以為懂了,其實懵逼。實在是因為統計學基礎太菜,似懂非懂,似是而非。記錄下自己的理解,求輕噴。
GWAS是表型和基因型之間的相關性分析,然而這個相關性用什麼統計方法?
GWAS模型的發展:
實際比例是否符合預期分離比例,若不符合則認為基因與表型相關。計算量大。
首先計算基因和表型之間的相關性(如pearson),再經過r換算為t值,進行t檢驗。計算量小。
直接將基因型x和表型y做回歸擬合,即y=xb+e。
其中y是表型,x是SNP、Q矩陣和總均值的一個綜合變數,e是殘差。
GLM模型中,如果兩個表型差異很大,但群體本身還含有其他的遺傳差異(如地域等),則那些與該表型無關的遺傳差異也會影響到相關性。MLM模型可以把群體結構的影響設為協方差,把這種位點校正掉。此外,材料間的公共祖先關系也會導致非連鎖相關,可加入親緣關系矩陣作為隨機效應來矯正,即y=Xb+Zu+e,Z為親緣關系矩陣,u為個體育種值,其他同GLM。
GLM是固定效應模型。MLM除了固定效應,還加入了隨機效應,即親緣關系矩陣。所謂的固定效應是有限水平的,易控制的,關心的是水平上的影響;而隨機效應有很多水平,關心的是水平背後的群體(如均值,方差等)。
有種只可意會,不可言傳的感覺。我網路了下,認為它解釋的還可以: 隨機效應模型
MLM的矯正過於嚴格,會把一些真實相關的SNP標記也過濾掉,因此CMLM模型目的是重新檢測到那些假陰性SNP標記。
方法是根據個體遺傳關系的相似性將其分組,然後將壓縮後的組當做協變數,替換原來的個體。組內個體的親緣關系都是一樣的。
問題來了,CMLM應該選擇哪些SNP來計算親緣關系矩陣,答案是使用所有跟表型相關的SNP(且排除了檢測到的那個SNP)來構建親緣關系矩陣的效果最好,這就是 SUPER (Settlement of Kinship Under Progressively Exclusive Relationship, 逐步排他性親緣關系解決方案)。
QTN(數量性狀SNP),即控制QTL的SNP。
GWAS的瓶頸一是計算速度,二是統計准確性。FarmCPU能提升速度和准確性,首先把隨機效應的親緣關系矩陣(Kinship)轉換為固定效應的關聯SNP矩陣(S矩陣/QTNs矩陣),使計算速度大大加快;其次利用QTN矩陣當做協變數,重新做關聯分析,提升准確率。
SUPER和FarmCPU都是把bin(一段區域,比如10kb)當做SNP單位,而不是單個SNP。
Blink是進階版GWAS,也是為提高速度和准確率。如下圖所示:先用上方的GLM模型獲得QTNs,然後用右側的GLM以QTNs當做協變數進行SNP檢測,得到的SNP根據LD信息確定QTNs的信息(根據染色體實際位置來選擇對應的bin大小),進而利用左側的GLM以BIC(Bayesian information criterion)策略進行QTNs准確性檢測,排除假設錯誤的部分,保留真實的QTNs,不斷循環這一過程,直到檢測到所有關聯SNP(即QTNs)。
模型總結:
這里是以張志武老師《統計基因組學》課程整理,所以重點介紹的是他們課題組開發的模型。
GWAS常用軟體:
GS模型的發展:
當控製表型的基因數量比較少,同時遺傳力比較高的性狀,可以用少量標記對表型進行很好的預測。
利用個體親緣關系構建協變數矩陣,然後根據個體育種值對表型進行預測。
如果把GBLUP中構建協變數的個體親緣關系矩陣換成SNP標記構成的關系矩陣,構建模型,然後對個體進行預測,就是rrBLUP的思路。
也就是把模型y=Xb+Zu+e變為y=Xb+Ms+e:
其中M是SNP構建的矩陣(替換個體親緣關系矩陣Z),s就是標記(替換個體u)。
rrBLUP假設所有標記效應符合一個正態分布,同時標記效應的方差(σ^2)相等,這可能與基因的實際效應值不相符。
這時引入了貝葉斯的分析方法:預期控製表型的基因數目未知,基因效應值的分布未知。根據預先假定基因的數量和基因效應值分布的不同,建立了不同的貝葉斯模型,如BayesianA,B,C,Cπ,LASSO等。
其差別主要在於:標記效應是否符合相同分布;是否所有標記都有效應值;標記效應方差服從什麼分布。
不同貝葉斯模型的假設和分布可參考之前的推文: # 【GS文獻】基因組選擇技術在農業動物育種中的應用
用圖形直觀表示不同的貝葉斯方法,下圖中π表示沒有標記效應的比例。
嶺回歸的所有標記效應方差都相等;貝葉斯A是所有標記都有效應方差,但不同標記有不同的效應方差;貝葉斯B是部分標記有效應方差,同時具有差異;貝葉斯Cπ是部分標記效應有方差,同時所有方差都相等。
GS常用免費開源R包:
如果GWAS使用的是MLM模型及其進階版,那麼它和GS用的其實是同一模型。
只是GWAS的重點在挖掘顯著性位點,關注固定效應Xb,加入隨機效應只是為了控制與表型顯著相關位點的假陽性;而GS重點在計算育種值,關注隨機效應Zu,加入固定效應是為了控制不同個體相同的部分。
兩種方法雖然模型一樣,但應用方向不同,所以視為不同技術,實際上是一回事兒。我們可以將二者結合起來,比如先用GWAS找出顯著位點,再加入GS的固定效應中,可能會使預測的准確性更高。或者是如果標記數目太多,我們不想過濾掉一些無關標記,就可以結合GWAS的結果來過濾。
在GS和GWAS的結合方面,也已經有了一些模型和演算法,如SSGBLUP,GS + de novo GWAS,GS + historical GWAS等。
致謝:
感謝張志武老師提供的最新教程以及開發的工具,感謝知乎張帆的課程總結。教程PPT參考: ## Statistical Genomics: 2020