導航:首頁 > 數據分析 > 如何用r分析gwas數據

如何用r分析gwas數據

發布時間:2023-09-17 22:21:49

1. GWAS與GS模型介紹與比較

最近看了不少統計基因組方面的資料,以為懂了,其實懵逼。實在是因為統計學基礎太菜,似懂非懂,似是而非。記錄下自己的理解,求輕噴。

GWAS是表型和基因型之間的相關性分析,然而這個相關性用什麼統計方法?

GWAS模型的發展:

實際比例是否符合預期分離比例,若不符合則認為基因與表型相關。計算量大。

首先計算基因和表型之間的相關性(如pearson),再經過r換算為t值,進行t檢驗。計算量小。

直接將基因型x和表型y做回歸擬合,即y=xb+e。

其中y是表型,x是SNP、Q矩陣和總均值的一個綜合變數,e是殘差。

GLM模型中,如果兩個表型差異很大,但群體本身還含有其他的遺傳差異(如地域等),則那些與該表型無關的遺傳差異也會影響到相關性。MLM模型可以把群體結構的影響設為協方差,把這種位點校正掉。此外,材料間的公共祖先關系也會導致非連鎖相關,可加入親緣關系矩陣作為隨機效應來矯正,即y=Xb+Zu+e,Z為親緣關系矩陣,u為個體育種值,其他同GLM。

GLM是固定效應模型。MLM除了固定效應,還加入了隨機效應,即親緣關系矩陣。所謂的固定效應是有限水平的,易控制的,關心的是水平上的影響;而隨機效應有很多水平,關心的是水平背後的群體(如均值,方差等)。

有種只可意會,不可言傳的感覺。我網路了下,認為它解釋的還可以: 隨機效應模型

MLM的矯正過於嚴格,會把一些真實相關的SNP標記也過濾掉,因此CMLM模型目的是重新檢測到那些假陰性SNP標記。

方法是根據個體遺傳關系的相似性將其分組,然後將壓縮後的組當做協變數,替換原來的個體。組內個體的親緣關系都是一樣的。

問題來了,CMLM應該選擇哪些SNP來計算親緣關系矩陣,答案是使用所有跟表型相關的SNP(且排除了檢測到的那個SNP)來構建親緣關系矩陣的效果最好,這就是 SUPER (Settlement of Kinship Under Progressively Exclusive Relationship, 逐步排他性親緣關系解決方案)。
QTN(數量性狀SNP),即控制QTL的SNP。

GWAS的瓶頸一是計算速度,二是統計准確性。FarmCPU能提升速度和准確性,首先把隨機效應的親緣關系矩陣(Kinship)轉換為固定效應的關聯SNP矩陣(S矩陣/QTNs矩陣),使計算速度大大加快;其次利用QTN矩陣當做協變數,重新做關聯分析,提升准確率。

SUPER和FarmCPU都是把bin(一段區域,比如10kb)當做SNP單位,而不是單個SNP。

Blink是進階版GWAS,也是為提高速度和准確率。如下圖所示:先用上方的GLM模型獲得QTNs,然後用右側的GLM以QTNs當做協變數進行SNP檢測,得到的SNP根據LD信息確定QTNs的信息(根據染色體實際位置來選擇對應的bin大小),進而利用左側的GLM以BIC(Bayesian information criterion)策略進行QTNs准確性檢測,排除假設錯誤的部分,保留真實的QTNs,不斷循環這一過程,直到檢測到所有關聯SNP(即QTNs)。

模型總結:
這里是以張志武老師《統計基因組學》課程整理,所以重點介紹的是他們課題組開發的模型。

GWAS常用軟體:

GS模型的發展:

當控製表型的基因數量比較少,同時遺傳力比較高的性狀,可以用少量標記對表型進行很好的預測。

利用個體親緣關系構建協變數矩陣,然後根據個體育種值對表型進行預測。

如果把GBLUP中構建協變數的個體親緣關系矩陣換成SNP標記構成的關系矩陣,構建模型,然後對個體進行預測,就是rrBLUP的思路。

也就是把模型y=Xb+Zu+e變為y=Xb+Ms+e:
其中M是SNP構建的矩陣(替換個體親緣關系矩陣Z),s就是標記(替換個體u)。

rrBLUP假設所有標記效應符合一個正態分布,同時標記效應的方差(σ^2)相等,這可能與基因的實際效應值不相符。

這時引入了貝葉斯的分析方法:預期控製表型的基因數目未知,基因效應值的分布未知。根據預先假定基因的數量和基因效應值分布的不同,建立了不同的貝葉斯模型,如BayesianA,B,C,Cπ,LASSO等。

其差別主要在於:標記效應是否符合相同分布;是否所有標記都有效應值;標記效應方差服從什麼分布。

不同貝葉斯模型的假設和分布可參考之前的推文: # 【GS文獻】基因組選擇技術在農業動物育種中的應用

用圖形直觀表示不同的貝葉斯方法,下圖中π表示沒有標記效應的比例。

嶺回歸的所有標記效應方差都相等;貝葉斯A是所有標記都有效應方差,但不同標記有不同的效應方差;貝葉斯B是部分標記有效應方差,同時具有差異;貝葉斯Cπ是部分標記效應有方差,同時所有方差都相等。

GS常用免費開源R包:

如果GWAS使用的是MLM模型及其進階版,那麼它和GS用的其實是同一模型。

只是GWAS的重點在挖掘顯著性位點,關注固定效應Xb,加入隨機效應只是為了控制與表型顯著相關位點的假陽性;而GS重點在計算育種值,關注隨機效應Zu,加入固定效應是為了控制不同個體相同的部分。

兩種方法雖然模型一樣,但應用方向不同,所以視為不同技術,實際上是一回事兒。我們可以將二者結合起來,比如先用GWAS找出顯著位點,再加入GS的固定效應中,可能會使預測的准確性更高。或者是如果標記數目太多,我們不想過濾掉一些無關標記,就可以結合GWAS的結果來過濾。

在GS和GWAS的結合方面,也已經有了一些模型和演算法,如SSGBLUP,GS + de novo GWAS,GS + historical GWAS等。

致謝:
感謝張志武老師提供的最新教程以及開發的工具,感謝知乎張帆的課程總結。教程PPT參考: ## Statistical Genomics: 2020

閱讀全文

與如何用r分析gwas數據相關的資料

熱點內容
現在哪裡開設了編程課 瀏覽:230
漫一網路培訓學校有哪些 瀏覽:752
酷狗app如何在電腦同步播放 瀏覽:668
雲浮微信群 瀏覽:344
公司文件打不開 瀏覽:267
LOL的設置文件在哪裡 瀏覽:254
線上開庭是什麼app 瀏覽:526
新中大軟體怎麼設置文件夾 瀏覽:807
git刪除文件夾 瀏覽:353
皇室戰爭怎麼升級競技場 瀏覽:447
雅虎統計工具 瀏覽:741
edgepdf文件分類 瀏覽:901
cad為什麼捕捉不到外部參照文件 瀏覽:935
重慶一共有多少個網站 瀏覽:34
k8s配置文件env創建失敗 瀏覽:197
編程序在電腦上叫做什麼 瀏覽:92
qq閱讀可賺 瀏覽:21
怎樣查找web儲存文件圖片 瀏覽:681
人口檔案資料庫包括什麼信息 瀏覽:709
手機有什麼好玩的星戰網路游戲 瀏覽:15

友情鏈接