导航:首页 > 数据分析 > 如何用r分析gwas数据

如何用r分析gwas数据

发布时间：2023-09-17 22:21:49

1. GWAS与GS模型介绍与比较

最近看了不少统计基因组方面的资料，以为懂了，其实懵逼。实在是因为统计学基础太菜，似懂非懂，似是而非。记录下自己的理解，求轻喷。

GWAS是表型和基因型之间的相关性分析，然而这个相关性用什么统计方法？

GWAS模型的发展：

实际比例是否符合预期分离比例，若不符合则认为基因与表型相关。计算量大。

首先计算基因和表型之间的相关性（如pearson），再经过r换算为t值，进行t检验。计算量小。

直接将基因型x和表型y做回归拟合，即y=xb+e。

其中y是表型，x是SNP、Q矩阵和总均值的一个综合变量，e是残差。

GLM模型中，如果两个表型差异很大，但群体本身还含有其他的遗传差异（如地域等），则那些与该表型无关的遗传差异也会影响到相关性。MLM模型可以把群体结构的影响设为协方差，把这种位点校正掉。此外，材料间的公共祖先关系也会导致非连锁相关，可加入亲缘关系矩阵作为随机效应来矫正，即y=Xb+Zu+e，Z为亲缘关系矩阵，u为个体育种值，其他同GLM。

GLM是固定效应模型。MLM除了固定效应，还加入了随机效应，即亲缘关系矩阵。所谓的固定效应是有限水平的，易控制的，关心的是水平上的影响；而随机效应有很多水平，关心的是水平背后的群体（如均值，方差等）。

有种只可意会，不可言传的感觉。我网络了下，认为它解释的还可以：随机效应模型

MLM的矫正过于严格，会把一些真实相关的SNP标记也过滤掉，因此CMLM模型目的是重新检测到那些假阴性SNP标记。

方法是根据个体遗传关系的相似性将其分组，然后将压缩后的组当做协变量，替换原来的个体。组内个体的亲缘关系都是一样的。

问题来了，CMLM应该选择哪些SNP来计算亲缘关系矩阵，答案是使用所有跟表型相关的SNP（且排除了检测到的那个SNP）来构建亲缘关系矩阵的效果最好，这就是 SUPER (Settlement of Kinship Under Progressively Exclusive Relationship, 逐步排他性亲缘关系解决方案)。
QTN（数量性状SNP），即控制QTL的SNP。

GWAS的瓶颈一是计算速度，二是统计准确性。FarmCPU能提升速度和准确性，首先把随机效应的亲缘关系矩阵（Kinship）转换为固定效应的关联SNP矩阵（S矩阵/QTNs矩阵），使计算速度大大加快；其次利用QTN矩阵当做协变量，重新做关联分析，提升准确率。

SUPER和FarmCPU都是把bin（一段区域，比如10kb）当做SNP单位，而不是单个SNP。

Blink是进阶版GWAS，也是为提高速度和准确率。如下图所示：先用上方的GLM模型获得QTNs，然后用右侧的GLM以QTNs当做协变量进行SNP检测，得到的SNP根据LD信息确定QTNs的信息（根据染色体实际位置来选择对应的bin大小），进而利用左侧的GLM以BIC（Bayesian information criterion）策略进行QTNs准确性检测，排除假设错误的部分，保留真实的QTNs，不断循环这一过程，直到检测到所有关联SNP（即QTNs）。

模型总结：
这里是以张志武老师《统计基因组学》课程整理，所以重点介绍的是他们课题组开发的模型。

GWAS常用软件：

GS模型的发展：

当控制表型的基因数量比较少，同时遗传力比较高的性状，可以用少量标记对表型进行很好的预测。

利用个体亲缘关系构建协变量矩阵，然后根据个体育种值对表型进行预测。

如果把GBLUP中构建协变量的个体亲缘关系矩阵换成SNP标记构成的关系矩阵，构建模型，然后对个体进行预测，就是rrBLUP的思路。

也就是把模型y=Xb+Zu+e变为y=Xb+Ms+e：
其中M是SNP构建的矩阵（替换个体亲缘关系矩阵Z），s就是标记（替换个体u）。

rrBLUP假设所有标记效应符合一个正态分布，同时标记效应的方差（σ^2）相等，这可能与基因的实际效应值不相符。

这时引入了贝叶斯的分析方法：预期控制表型的基因数目未知，基因效应值的分布未知。根据预先假定基因的数量和基因效应值分布的不同，建立了不同的贝叶斯模型，如BayesianA,B,C,Cπ,LASSO等。

其差别主要在于：标记效应是否符合相同分布；是否所有标记都有效应值；标记效应方差服从什么分布。

不同贝叶斯模型的假设和分布可参考之前的推文： # 【GS文献】基因组选择技术在农业动物育种中的应用

用图形直观表示不同的贝叶斯方法，下图中π表示没有标记效应的比例。

岭回归的所有标记效应方差都相等；贝叶斯A是所有标记都有效应方差，但不同标记有不同的效应方差；贝叶斯B是部分标记有效应方差，同时具有差异；贝叶斯Cπ是部分标记效应有方差，同时所有方差都相等。

GS常用免费开源R包：

如果GWAS使用的是MLM模型及其进阶版，那么它和GS用的其实是同一模型。

只是GWAS的重点在挖掘显著性位点，关注固定效应Xb，加入随机效应只是为了控制与表型显著相关位点的假阳性；而GS重点在计算育种值，关注随机效应Zu，加入固定效应是为了控制不同个体相同的部分。

两种方法虽然模型一样，但应用方向不同，所以视为不同技术，实际上是一回事儿。我们可以将二者结合起来，比如先用GWAS找出显著位点，再加入GS的固定效应中，可能会使预测的准确性更高。或者是如果标记数目太多，我们不想过滤掉一些无关标记，就可以结合GWAS的结果来过滤。

在GS和GWAS的结合方面，也已经有了一些模型和算法，如SSGBLUP，GS + de novo GWAS，GS + historical GWAS等。

致谢：
感谢张志武老师提供的最新教程以及开发的工具，感谢知乎张帆的课程总结。教程PPT参考： ## Statistical Genomics: 2020

阅读全文

与如何用r分析gwas数据相关的资料

热点内容

订阅已关为什么还显示app 发布：2025-04-25 07:45:56 浏览：169

大华详细教程发布：2025-04-25 07:15:11 浏览：901

学信网是一种什么网站发布：2025-04-25 07:14:35 浏览：378

wow插件文件夹发布：2025-04-25 07:01:32 浏览：302

c源程序文件的缺省扩展名为发布：2025-04-25 06:30:13 浏览：952

java类类型发布：2025-04-25 06:19:56 浏览：971

拼多多关键词数据怎么下载发布：2025-04-25 06:19:54 浏览：867

哪个app可以买火影忍者号发布：2025-04-25 06:16:20 浏览：524

2012r2添加数据库引擎发布：2025-04-25 06:02:49 浏览：549

贷款app如何注销发布：2025-04-25 05:34:03 浏览：966

懒人版本lol 发布：2025-04-25 05:29:02 浏览：195

ipad怎么新建文件夹发布：2025-04-25 05:29:01 浏览：697

wps文字密码暴力破解软件发布：2025-04-25 04:52:52 浏览：68

51单片机ds1302程序发布：2025-04-25 04:33:47 浏览：973

学编程方面需要哪些优势发布：2025-04-25 04:33:03 浏览：675

电脑太大的文件怎么上传微信发布：2025-04-25 04:28:00 浏览：514

索尼lt26ixperias刷机教程发布：2025-04-25 04:26:30 浏览：246

win10uefi文件下载发布：2025-04-25 04:25:37 浏览：713

显示文件大小的软件发布：2025-04-25 04:25:35 浏览：194

最早的soul聊天app是怎么样的发布：2025-04-25 04:15:25 浏览：489

导航:首页 > 数据分析 > 如何用r分析gwas数据

如何用r分析gwas数据

与如何用r分析gwas数据相关的资料

友情链接