導航:首頁 > 數據分析 > 如何用r分析gwas數據

如何用r分析gwas數據

發布時間：2023-09-17 22:21:49

1. GWAS與GS模型介紹與比較

最近看了不少統計基因組方面的資料，以為懂了，其實懵逼。實在是因為統計學基礎太菜，似懂非懂，似是而非。記錄下自己的理解，求輕噴。

GWAS是表型和基因型之間的相關性分析，然而這個相關性用什麼統計方法？

GWAS模型的發展：

實際比例是否符合預期分離比例，若不符合則認為基因與表型相關。計算量大。

首先計算基因和表型之間的相關性（如pearson），再經過r換算為t值，進行t檢驗。計算量小。

直接將基因型x和表型y做回歸擬合，即y=xb+e。

其中y是表型，x是SNP、Q矩陣和總均值的一個綜合變數，e是殘差。

GLM模型中，如果兩個表型差異很大，但群體本身還含有其他的遺傳差異（如地域等），則那些與該表型無關的遺傳差異也會影響到相關性。MLM模型可以把群體結構的影響設為協方差，把這種位點校正掉。此外，材料間的公共祖先關系也會導致非連鎖相關，可加入親緣關系矩陣作為隨機效應來矯正，即y=Xb+Zu+e，Z為親緣關系矩陣，u為個體育種值，其他同GLM。

GLM是固定效應模型。MLM除了固定效應，還加入了隨機效應，即親緣關系矩陣。所謂的固定效應是有限水平的，易控制的，關心的是水平上的影響；而隨機效應有很多水平，關心的是水平背後的群體（如均值，方差等）。

有種只可意會，不可言傳的感覺。我網路了下，認為它解釋的還可以：隨機效應模型

MLM的矯正過於嚴格，會把一些真實相關的SNP標記也過濾掉，因此CMLM模型目的是重新檢測到那些假陰性SNP標記。

方法是根據個體遺傳關系的相似性將其分組，然後將壓縮後的組當做協變數，替換原來的個體。組內個體的親緣關系都是一樣的。

問題來了，CMLM應該選擇哪些SNP來計算親緣關系矩陣，答案是使用所有跟表型相關的SNP（且排除了檢測到的那個SNP）來構建親緣關系矩陣的效果最好，這就是 SUPER (Settlement of Kinship Under Progressively Exclusive Relationship, 逐步排他性親緣關系解決方案)。
QTN（數量性狀SNP），即控制QTL的SNP。

GWAS的瓶頸一是計算速度，二是統計准確性。FarmCPU能提升速度和准確性，首先把隨機效應的親緣關系矩陣（Kinship）轉換為固定效應的關聯SNP矩陣（S矩陣/QTNs矩陣），使計算速度大大加快；其次利用QTN矩陣當做協變數，重新做關聯分析，提升准確率。

SUPER和FarmCPU都是把bin（一段區域，比如10kb）當做SNP單位，而不是單個SNP。

Blink是進階版GWAS，也是為提高速度和准確率。如下圖所示：先用上方的GLM模型獲得QTNs，然後用右側的GLM以QTNs當做協變數進行SNP檢測，得到的SNP根據LD信息確定QTNs的信息（根據染色體實際位置來選擇對應的bin大小），進而利用左側的GLM以BIC（Bayesian information criterion）策略進行QTNs准確性檢測，排除假設錯誤的部分，保留真實的QTNs，不斷循環這一過程，直到檢測到所有關聯SNP（即QTNs）。

模型總結：
這里是以張志武老師《統計基因組學》課程整理，所以重點介紹的是他們課題組開發的模型。

GWAS常用軟體：

GS模型的發展：

當控製表型的基因數量比較少，同時遺傳力比較高的性狀，可以用少量標記對表型進行很好的預測。

利用個體親緣關系構建協變數矩陣，然後根據個體育種值對表型進行預測。

如果把GBLUP中構建協變數的個體親緣關系矩陣換成SNP標記構成的關系矩陣，構建模型，然後對個體進行預測，就是rrBLUP的思路。

也就是把模型y=Xb+Zu+e變為y=Xb+Ms+e：
其中M是SNP構建的矩陣（替換個體親緣關系矩陣Z），s就是標記（替換個體u）。

rrBLUP假設所有標記效應符合一個正態分布，同時標記效應的方差（σ^2）相等，這可能與基因的實際效應值不相符。

這時引入了貝葉斯的分析方法：預期控製表型的基因數目未知，基因效應值的分布未知。根據預先假定基因的數量和基因效應值分布的不同，建立了不同的貝葉斯模型，如BayesianA,B,C,Cπ,LASSO等。

其差別主要在於：標記效應是否符合相同分布；是否所有標記都有效應值；標記效應方差服從什麼分布。

不同貝葉斯模型的假設和分布可參考之前的推文： # 【GS文獻】基因組選擇技術在農業動物育種中的應用

用圖形直觀表示不同的貝葉斯方法，下圖中π表示沒有標記效應的比例。

嶺回歸的所有標記效應方差都相等；貝葉斯A是所有標記都有效應方差，但不同標記有不同的效應方差；貝葉斯B是部分標記有效應方差，同時具有差異；貝葉斯Cπ是部分標記效應有方差，同時所有方差都相等。

GS常用免費開源R包：

如果GWAS使用的是MLM模型及其進階版，那麼它和GS用的其實是同一模型。

只是GWAS的重點在挖掘顯著性位點，關注固定效應Xb，加入隨機效應只是為了控制與表型顯著相關位點的假陽性；而GS重點在計算育種值，關注隨機效應Zu，加入固定效應是為了控制不同個體相同的部分。

兩種方法雖然模型一樣，但應用方向不同，所以視為不同技術，實際上是一回事兒。我們可以將二者結合起來，比如先用GWAS找出顯著位點，再加入GS的固定效應中，可能會使預測的准確性更高。或者是如果標記數目太多，我們不想過濾掉一些無關標記，就可以結合GWAS的結果來過濾。

在GS和GWAS的結合方面，也已經有了一些模型和演算法，如SSGBLUP，GS + de novo GWAS，GS + historical GWAS等。

致謝：
感謝張志武老師提供的最新教程以及開發的工具，感謝知乎張帆的課程總結。教程PPT參考： ## Statistical Genomics: 2020

閱讀全文

與如何用r分析gwas數據相關的資料

熱點內容

網路中常用的傳輸介質發布：2025-10-20 08:42:23 瀏覽：518

文件如何使用發布：2025-10-20 08:33:27 瀏覽：322

同步推密碼找回發布：2025-10-20 08:04:22 瀏覽：865

樂高怎麼才能用電腦編程序發布：2025-10-20 07:57:56 瀏覽：65

本機qq文件為什麼找不到發布：2025-10-20 07:39:47 瀏覽：264

安卓qq空間免升級發布：2025-10-20 07:36:50 瀏覽：490

linux如何刪除模塊驅動程序發布：2025-10-20 07:36:06 瀏覽：193

at89c51c程序發布：2025-10-20 07:35:06 瀏覽：329

怎麼創建word大綱文件發布：2025-10-20 07:24:54 瀏覽：622

裊裊朗誦文件生成器發布：2025-10-20 07:00:55 瀏覽：626

1054件文件是多少gb 發布：2025-10-20 06:03:27 瀏覽：371

高州禁養區內能養豬多少頭的文件發布：2025-10-20 05:51:26 瀏覽：927

win8ico文件發布：2025-10-20 05:47:08 瀏覽：949

仁和數控怎麼編程發布：2025-10-20 05:24:49 瀏覽：381

項目文件夾圖片發布：2025-10-20 04:42:54 瀏覽：87

怎麼在東芝電視安裝app 發布：2025-10-20 04:42:54 瀏覽：954

plc顯示數字怎麼編程發布：2025-10-20 04:42:54 瀏覽：439

如何辨別假網站發布：2025-10-20 04:26:28 瀏覽：711

寬頻用別人的賬號密碼發布：2025-10-20 04:08:00 瀏覽：556

新app如何佔有市場發布：2025-10-20 03:39:57 瀏覽：42

導航:首頁 > 數據分析 > 如何用r分析gwas數據

如何用r分析gwas數據

與如何用r分析gwas數據相關的資料

友情鏈接