導航:首頁 > 數據分析 > 如何用r分析gwas數據

如何用r分析gwas數據

發布時間:2023-09-17 22:21:49

1. GWAS與GS模型介紹與比較

最近看了不少統計基因組方面的資料,以為懂了,其實懵逼。實在是因為統計學基礎太菜,似懂非懂,似是而非。記錄下自己的理解,求輕噴。

GWAS是表型和基因型之間的相關性分析,然而這個相關性用什麼統計方法?

GWAS模型的發展:

實際比例是否符合預期分離比例,若不符合則認為基因與表型相關。計算量大。

首先計算基因和表型之間的相關性(如pearson),再經過r換算為t值,進行t檢驗。計算量小。

直接將基因型x和表型y做回歸擬合,即y=xb+e。

其中y是表型,x是SNP、Q矩陣和總均值的一個綜合變數,e是殘差。

GLM模型中,如果兩個表型差異很大,但群體本身還含有其他的遺傳差異(如地域等),則那些與該表型無關的遺傳差異也會影響到相關性。MLM模型可以把群體結構的影響設為協方差,把這種位點校正掉。此外,材料間的公共祖先關系也會導致非連鎖相關,可加入親緣關系矩陣作為隨機效應來矯正,即y=Xb+Zu+e,Z為親緣關系矩陣,u為個體育種值,其他同GLM。

GLM是固定效應模型。MLM除了固定效應,還加入了隨機效應,即親緣關系矩陣。所謂的固定效應是有限水平的,易控制的,關心的是水平上的影響;而隨機效應有很多水平,關心的是水平背後的群體(如均值,方差等)。

有種只可意會,不可言傳的感覺。我網路了下,認為它解釋的還可以: 隨機效應模型

MLM的矯正過於嚴格,會把一些真實相關的SNP標記也過濾掉,因此CMLM模型目的是重新檢測到那些假陰性SNP標記。

方法是根據個體遺傳關系的相似性將其分組,然後將壓縮後的組當做協變數,替換原來的個體。組內個體的親緣關系都是一樣的。

問題來了,CMLM應該選擇哪些SNP來計算親緣關系矩陣,答案是使用所有跟表型相關的SNP(且排除了檢測到的那個SNP)來構建親緣關系矩陣的效果最好,這就是 SUPER (Settlement of Kinship Under Progressively Exclusive Relationship, 逐步排他性親緣關系解決方案)。
QTN(數量性狀SNP),即控制QTL的SNP。

GWAS的瓶頸一是計算速度,二是統計准確性。FarmCPU能提升速度和准確性,首先把隨機效應的親緣關系矩陣(Kinship)轉換為固定效應的關聯SNP矩陣(S矩陣/QTNs矩陣),使計算速度大大加快;其次利用QTN矩陣當做協變數,重新做關聯分析,提升准確率。

SUPER和FarmCPU都是把bin(一段區域,比如10kb)當做SNP單位,而不是單個SNP。

Blink是進階版GWAS,也是為提高速度和准確率。如下圖所示:先用上方的GLM模型獲得QTNs,然後用右側的GLM以QTNs當做協變數進行SNP檢測,得到的SNP根據LD信息確定QTNs的信息(根據染色體實際位置來選擇對應的bin大小),進而利用左側的GLM以BIC(Bayesian information criterion)策略進行QTNs准確性檢測,排除假設錯誤的部分,保留真實的QTNs,不斷循環這一過程,直到檢測到所有關聯SNP(即QTNs)。

模型總結:
這里是以張志武老師《統計基因組學》課程整理,所以重點介紹的是他們課題組開發的模型。

GWAS常用軟體:

GS模型的發展:

當控製表型的基因數量比較少,同時遺傳力比較高的性狀,可以用少量標記對表型進行很好的預測。

利用個體親緣關系構建協變數矩陣,然後根據個體育種值對表型進行預測。

如果把GBLUP中構建協變數的個體親緣關系矩陣換成SNP標記構成的關系矩陣,構建模型,然後對個體進行預測,就是rrBLUP的思路。

也就是把模型y=Xb+Zu+e變為y=Xb+Ms+e:
其中M是SNP構建的矩陣(替換個體親緣關系矩陣Z),s就是標記(替換個體u)。

rrBLUP假設所有標記效應符合一個正態分布,同時標記效應的方差(σ^2)相等,這可能與基因的實際效應值不相符。

這時引入了貝葉斯的分析方法:預期控製表型的基因數目未知,基因效應值的分布未知。根據預先假定基因的數量和基因效應值分布的不同,建立了不同的貝葉斯模型,如BayesianA,B,C,Cπ,LASSO等。

其差別主要在於:標記效應是否符合相同分布;是否所有標記都有效應值;標記效應方差服從什麼分布。

不同貝葉斯模型的假設和分布可參考之前的推文: # 【GS文獻】基因組選擇技術在農業動物育種中的應用

用圖形直觀表示不同的貝葉斯方法,下圖中π表示沒有標記效應的比例。

嶺回歸的所有標記效應方差都相等;貝葉斯A是所有標記都有效應方差,但不同標記有不同的效應方差;貝葉斯B是部分標記有效應方差,同時具有差異;貝葉斯Cπ是部分標記效應有方差,同時所有方差都相等。

GS常用免費開源R包:

如果GWAS使用的是MLM模型及其進階版,那麼它和GS用的其實是同一模型。

只是GWAS的重點在挖掘顯著性位點,關注固定效應Xb,加入隨機效應只是為了控制與表型顯著相關位點的假陽性;而GS重點在計算育種值,關注隨機效應Zu,加入固定效應是為了控制不同個體相同的部分。

兩種方法雖然模型一樣,但應用方向不同,所以視為不同技術,實際上是一回事兒。我們可以將二者結合起來,比如先用GWAS找出顯著位點,再加入GS的固定效應中,可能會使預測的准確性更高。或者是如果標記數目太多,我們不想過濾掉一些無關標記,就可以結合GWAS的結果來過濾。

在GS和GWAS的結合方面,也已經有了一些模型和演算法,如SSGBLUP,GS + de novo GWAS,GS + historical GWAS等。

致謝:
感謝張志武老師提供的最新教程以及開發的工具,感謝知乎張帆的課程總結。教程PPT參考: ## Statistical Genomics: 2020

閱讀全文

與如何用r分析gwas數據相關的資料

熱點內容
微信漂流瓶怎麼發照片 瀏覽:908
如皋如何學數控編程培訓 瀏覽:205
extjs如何截取字元串 瀏覽:545
delphitreeview資料庫 瀏覽:148
百度雲Mac版共享文件 瀏覽:623
上三高速代碼 瀏覽:926
手機文件里的游戲為什麼找不到 瀏覽:861
java類作為參數 瀏覽:611
win10打游戲好還是win7系統好 瀏覽:820
數據解壓後找不到文件 瀏覽:360
學習編程感覺沒學到什麼 瀏覽:128
微信收到的文件有幾種圖片 瀏覽:251
iphone4聽筒進水沒有聲音 瀏覽:890
蘋果手機什麼游戲免費 瀏覽:823
什麼軟體可以加密文件夾 瀏覽:953
vba截取絕對路徑的文件路徑 瀏覽:911
黑蘋果忘記登錄密碼忘記 瀏覽:77
windows查看文件 瀏覽:100
如何編輯文件盒上標簽 瀏覽:662
iphone上怎麼用熊貓看書看txt 瀏覽:912

友情鏈接