导航:首页 > 网络数据 > 细胞大数据分析

细胞大数据分析

发布时间:2023-05-31 08:57:52

『壹』 Scanorama ---整合单细胞的大数据

2018-07-19每日晌亏猜文献:Panoramic stitching of heterogeneous single-cell transcriptomic data

作者提出了一种工具,Scanorama ,利用了全景拼接的算法,将来源于不同技术的单细胞的datasets进行整合。
使用的数据集:105476 cells from 26 scRNA-seq experiments across 9 different technonlogies to make a single comprehensive reference.

http://cb.csail.mit.e/cb/scanorama/
https://github.com/brianhie/scanorama

文中提到:
Seurat CCA 和 MNN 假设两个数据集之间至少有一种宴型相同的cell type, 或者基因表达谱具有相同的相关结构(??),因此限制了使用。

Scanorama 跟图像拼接类似,也是根据两个数据集overlap的区域来进行batch-correction 和intergration。 优势:能够保留数据 specific population,也不需要所有的dataset share相同的cell type。空卜 信息的丢失??

利用mutual nearest neighbors matching ,主要能够寻找两个数据集的相似部分,而不是整个大数据中的相似部分。MNN ,针对多于两个datasets的比对,先选择一个作为reference,之后将其他的datasets和这个datasets做integrate,所以整合的效果很看重 数据的顺序

Scanorama 的两个关键性步骤:1.使用SVD(singular value decomposition) 将高维的数据降维。2.基于超敏感局部敏感散列和随机投影树来构建近邻法,节约时间。

接下来,使用模拟和真实的数据集进行模拟,真实的数据集包括:293T cell and Jurkat cells,HSC data,pancreas data,105476 cells dataset.

文章重点强调:1.相同的细胞类型能merge在一起,2.保留数据集独特的细胞。3.根据alignment genes来监控两个数据的比对。4.运行速度快。十万细胞只需要25分钟(10核,384GB RAM)。

1.可以尝试使用它来做整个物种数据的大图,数据的整合可以用,但是对于其normalization的方法以及是否能够找markers存在疑问。
2.好奇它与MNN 之间的差异,都是使用mutual nearest neighbor,区别到底在哪里??

需要尝试使用

『贰』 细胞分析是什么

就是抽静脉血,分析各类血细胞的数目。比较全的全血细胞分析检查的具体项目有:\x0d\x0a白细胞总数3.20~9.00\x0d\x0a中性粒细胞百分率37.00~80.00\x0d\x0a淋巴细胞百分喊皮率20.5~51.10\x0d\x0a单核细胞百分率0.00~12.00\x0d\x0a嗜酸性粒细胞百分基派率0.00~7.00\x0d\x0a嗜碱性粒细胞百分率0.00~2.50\x0d\x0a中性粒细胞绝对值2.00~6.90\x0d\x0a淋巴细胞绝对值0.90~5.20\x0d\x0a单核细胞绝对值0.00~0.90\x0d\x0a嗜酸性粒细胞绝对值0.00~0.70\x0d\x0a嗜碱性粒细胞绝对值0.00~0.40\x0d\x0a红细胞计数3.69~5.17\x0d\x0a血红蛋白117.00~157.80\x0d\x0a红细胞压积33.00~43.00\x0d\x0a红搏渗贺细胞平均体积76.00~96.00\x0d\x0a红细胞平均血红蛋白含量26.92~35.50\x0d\x0a红细胞平均血红蛋白浓度346.00~378.00\x0d\x0a平均RBC血红蛋白浓度329.00~360.00\x0d\x0a平均红细胞血红蛋白含量27.20~34.30\x0d\x0a红细胞体积分布宽度12.00~16.00\x0d\x0a血红蛋白分布宽度22.00~32.00\x0d\x0a血小板计数98.70~302.90\x0d\x0a血小板平均体积8.70~17.40

『叁』 10X单细胞数据整合分析Seurat之rpca(large data,细胞量超过20万)

PCA(Principal Component Analysis),即主成分分析方法,是一种使用最广泛的数据降维算法。PCA的主要思想是将n维特征映射到k维上,这k维是全新的正交特征也被称为主成分,是在原有n维特征的基础上重新构造出来的k维特征。PCA的工作就是从原始的空间中顺序地找一组相互正交的坐标轴,新的坐标轴的选择与数据本身是密切相关的。其中,第一个新坐标轴选择是原始数据中方差最大的方向,第二个新坐标轴选取是与第一个坐标轴正交的平面中使得方差最大的,第三个轴是与第1,2个轴正交的平面中方差最大的。依次类推,可以得到n个这样的坐标轴。通过这种方式获得的新的坐标轴,我们发现,大部分方差都包含在前面k个坐标轴中,后面的坐标轴所含的方差几乎为0。于是,我们可以忽略余下的坐标轴,只保留前面k个含有绝大部分方差的坐标轴。事中陵实上,这相当于只保留卖旦戚包含绝大部分方差的维度特征,而忽略包含方差几乎为0的特征维度,实现对数据特征的降维处理。
思考:我们如何得到这些包含最大差异性的主成分方向呢?
答案:事实上,通过计算数据矩阵的协方差矩阵,然后得到协方差矩阵的特征值特征向量,选择特征值最大(即方差最大)的k个特征所对应的特征向量组成的矩阵。这样就可以将数据矩阵转换到新的空间当中,实现数据特征的降维。
由于得到协方差矩阵的特征值特征向量有两种方法:特征值分解协方差矩阵、奇异值分解协方差矩阵,所以PCA算法有两种实现方法:基于特征值分解协方差矩阵实现PCA算法、基于SVD分解协方差矩阵实现PCA算法。
算法的话大家自行学习一下把,可参考上述文章。

Robust PCA考虑的是这样一个问题:一般的数据矩阵D包含结构信息,也包含噪声。那么可以将这个矩阵分解为两个矩阵相加: D = A + E A是低秩的(由于内部有一定的结构信息造成各行或列间是线性相关的),E是稀疏的(含有噪声,则是稀疏的)
首先阐述低秩和稀疏的区别和联系
稀疏和低秩的相同点在于都表明矩阵的信息冗余比较大。具体来说, 稀疏意味着有很多零,即可以压缩(10X单细胞数据的特点) ;低秩意味着矩阵有很多行(列)是线性相关的( 单细胞数据PCA的前提 )。
秩可以理解为图像所包含的信息的丰富程度,秩越低表示数据冗余性越大,因为用很少几个基就可以表达所有数据了。迟启相反,秩越大表示数据冗余性越小。
与经典PCA一样,Robust PCA(鲁棒主成分分析)本质上也是寻找数据在低维空间上的最佳投影问题。当观测数据较大和数据含有噪声时,PCA无法给出理想的结果,而Robust PCA能够从较大的且稀疏噪声污染的观测数据中恢复出本质上低秩的数据( 这一点厉害了 )。

当然,这个过程跟PCA一样,充满了数学公式和算法,需要数学界的大牛来为我们解惑了,但是我们基本的内容我们需要知道,单细胞的数据矩阵分解为两个矩阵,低秩矩阵和噪声矩阵,而噪声矩阵具有很强的稀疏性(很符合单细胞数据的特点)

其实知道了rpca的基础运用之后,不难理解rpca为什么用在large data的整合分析了,我们来看看:
数据过大Seurat给出了优化的方法:
For very large datasets, the standard integration workflow can sometimes be prohibitively computationally expensive. In this workflow, we employ two options that can improve efficiency and runtimes:

也就是说,没有指定的情况下(默认情况),成对样本的anchors都会去发现,如果指定了ref,anchors are first found between each query and each reference. The references are then integrated through pairwise integration. Each query is then mapped to the integrated reference. 当然,数据量小的前提下不需要指定ref ,我们再往下分析:

The main efficiency improvements are gained in FindIntegrationAnchors(),rpca取代了cca,to identify an effective space in which to find anchors. 在使用rPCA确定任意两个数据集之间的锚点时,我们将每个数据集投影到其他PCA空间中,并通过相同的相互邻域要求约束锚点,All downstream integration steps remain the same and we are able to ‘correct’ (or harmonize) the datasets.

Additionally, we use reference-based integration. In the standard workflow, we identify anchors between all pairs of datasets. While this gives datasets equal weight in downstream integration, it can also become computationally intensive. For example when integrating 10 different datasets, we perform 45 different pairwise comparisons( 计算量确实很夸张 ). As an alternative, we introce here the possibility of specifying one or more of the datasets as the ‘reference’ for integrated analysis, with the remainder designated as ‘query’ datasets. In this workflow, we do not identify anchors between pairs of query datasets( 这个地方需要注意一下 ), recing the number of comparisons. For example, when integrating 10 datasets with one specified as a reference, we perform only 9 comparisons( 计算量大大减少 ). Reference-based integration can be applied to either log-normalized or SCTransform-normalized datasets.( 前期处理也必不可少 )。
This alternative workflow consists of the following steps:

注意这里的重点:

下面的就简单了

当我们的细胞数量超过10万,这个方法很好,值得学习

生活很好,有你更好

『肆』 流式FSC检测细胞大小,如何分析数据

流式细胞只能比较细胞的相对大小和胞内的复杂程度,FSC对应的是细胞的相对大小,FSC的值越大表示细胞越大,SSC对应的是细胞内部复杂程度,SSC的值越大说明细胞内部的颗粒越多。

在检测细胞大小的变化是,应使用未处理的简虚细胞为对照,确定电压等检测条件后,在不改变检测条件的前提下,对处理后的细胞进行分析,检测处理后细胞FSC的变化。如果以FSC为横坐标、SSC为纵坐标,处理后的细胞往右偏移则表示细胞变大了;如果处理后的细胞发生了分群,分别设门圈定这没陪些细胞群,就可测出每一群细胞在整个细胞群中的比例及其 大小的变化。

下图为某细胞经处理枯咐蠢后细胞大小发生改变的一个例子。

『伍』 中研院:我们在自闭症基因分析有了新发现,这将是一个大进展

日本研究发现:精神分裂症的新药靶点何谓伊维菌素?长庚大学:这个菌素可抑制新冠病毒JBC:“看得见”,眼睛再循环利用维生素A的机制FASEB:提早预防脑部神经炎症可延缓阿滋海默症的发生

自闭症谱系障碍(auti *** spectrum disorder,简称ASD)是一种脑部发育障碍所导致的复杂疾病,患者往往在社交沟通、互动及表达上有障碍,成因目前仍未有定论,普遍认为与遗传及基因变异有关。中央研究院基因体研究中心研究员庄树谆研究团队,首次系统性建构环状RNA(circular RNA1)在自闭症脑部的基因调控网路图谱,有助于增进对自闭症致病分子机制的理解。该篇论文已于今(109)年3月刊登在《基因体研究》(Genome Research)。

环状RNA是一种单链封闭式环型结构,且特别高度表现在神经系统。庄树谆研究团队利用大数据分析找到在自闭症患者大脑皮质中表现量异常的环状RNA,并预测其调控路径,结合分子生物实验后证实:环状RNA像海绵一样吸附特定的微RNA(miRNA),使其失去或降低对下游自闭症风险基因调控的能力。有关环状RNA、微RNA、与下游基因在自闭症脑部的调控网路关系,过去并未被有系统地探讨。

不过,中研院今天表示,基因体研究中心研究员庄树谆研究团队利用大数据分析,找到在自闭症患者大脑皮质中表现量拿银冲异常的环状RNA,并预测其调控路径,再结合分子生物实验后证实,环状RNA像海绵一样吸附特定的微RNA(miRNA),使其失去或降低对下游自闭症风险基因调控的能力。

侦测在自闭症患者大脑皮质中表现异常的60个环状RNA。(图源:中研院)

侦测在自闭症患者大脑皮质中表现异常的60个环状RNA

中研院说,庄树谆所率领的大数据分析与神经科学实验室团队,透过先前开发的环状RNA侦测软体(NCLscan),设计大数据分析流程,从超过200个样本的转录体定序(RNA-seq)资料,找到60个在自闭症患者大脑皮质中表现异常的环状RNA。再经统计模型分析显示,根据此60个环状RNA的表现情形,能有效区别自闭症与非自闭症样本,因此可判定这些环状RNA与自闭症的发生应有关连。中研院表示,团队也进一步预测这些环状RNA的下游调控路径,建构出8170个环状RNA、微RNA、信使RNA(mRNA)间的交互调控网路,接着再透过基因富集分析,发现这些网路所调控的下游目标基因,显著集中在已知的自闭症风险基因。

环状RNA调控网路。( 图源:中研院)

环状RNA调控网路和自闭症风险基因高度相关

庄树谆所率领的大数据分析与神经科学实验室团队,透过先前开发的环状RNA侦测软体(NCLscan),设计大数据分析流程。从超过200个样本的转录体定序(RNA-seq)资料,找到60个在自闭症患者大脑皮质中表现异常的环状RNA;经统计模型分析显示,根据此60个环状RNA的表现情形,能有效区别自闭症与非自闭症样本,因此可判定这些环状RNA与自闭症的发生应有关连 。

为此,团队进一步预测这些环状RNA的下游调控路径,建构出8,170个环状RNA、微RNA、信使RNA(mRNA)间的交互调控网路 ,接着再透过基因富集分析,发现这些网路所调控的下游目标基因,显著集中在已知的自闭症风险基因搏胡。

庄树谆说,这个研究除设计大数据分析流程来建构环状RNA的调控网路关系,也结合分生实验验证,团队挑选一个在自闭症患者脑部表现量明显上升的环状RNA(命名为circARID1A),于人类神经细胞实验验证后发现,circARID1A确实可借由调控微RNA(miR-204-3p),影响下游多个自闭症风险基因的表达。

人类神经相消歼关细胞实验验证circARID1A确实可借由调控miR-204-3p影响自闭症风险基因

庄树谆说明,这个研究除设计大数据分析流程来建构环状RNA的调控网路关系,也结合分生实验验证。团队挑选一个在自闭症患者脑部表现量明显上升的环状RNA(命名为circARID1A),于人类神经细胞实验验证后发现, circARID1A确实可借由调控微RNA(miR-204-3p),影响下游多个自闭症风险基因的表达 。

在人类神经相关细胞实验验证circARID1A确实可借由调控miR-204-3p影响自闭症风险基因的基因表达。(图源:中研院)

『陆』 完整的单细胞分析流程——数据标化(normalization)

通常在单细胞RNA测序数据中观察到文库之间测序覆盖率的系统差异。它们通常是由细胞间的cDNA捕获或PCR扩增效率方面的技术差异引起的,这归因于用最少的起始材料难以实现一致的文库制备。标准化旨在消除这些差异,以使它们不干扰细胞之间表达谱的比较。这样可以确保在细胞群体中观察到的任何异质性或差异表达都是由生物学而不是技术偏倚引起的。

在这一点上,规范化和批次校正之间的区别需要注意。归一化的发生与批次结构无关,并陆伍且仅考虑技术偏差,而批次矫正仅在批次之间发生,并且必须同时考虑技术偏差和生物学差异。技术偏倚倾向于以相似的方式或至少以与它们的生物物理特性(例如长度,GC含量)有关的方式影响基因,而批次之间的生物学差异可能是高度不可预测的。这样,这两个任务涉及不同的假设,并且通常涉及不同的计算方法(尽管某些软件包旨在一次执行两个步骤,例如zinbwave)。因此,避免混淆“标准化”和“批次校正”的数据非常重要,因为这些数据通常表示不同的事物。

我们将主要关注缩放标准化,这是最简单和最常用的标准化策略。这涉及将每个细胞的所有计数除以特定于细胞的比例因子,通常称为“大小因子”。这里的假设是,任何细胞特异性偏倚(例如,捕获或扩增效率)均会通过缩放该细胞的预期平均数来同等地影响所有基因。每个细胞的大小因子表示该细胞中相对偏差的估计,因此,将其计数除以其大小因子应消除该偏差。然后可以将所得的“归一化数据”用于下游分析,例如聚类和降维。为了演示,我们将使用来自scRNAseq软件包的数据集。

文库大小归一化是执行缩放归一化的最简单策略。 我们将文库的大小定义为每个细胞中所有基因的计数总和,假定其预期值随任何细胞特异性偏倚而缩放。 然后,在定义比例常数的情况下,每个细胞的“库大小因子”直接与其库大小成正比,从而使所有细胞的平均大小因子等于1。此定义可确保归一化的表达值与原始计数处于相同规模 ——这对解释很有用——尤其是在处理转含弯换后的数据时。

在Zeisel脑数据中,文库大小因子在细胞之间的差异最大10倍。 这是scRNA-seq数据覆盖范围变异的典型表现。

严格来说,文库大小因子的使用是假设任何一对细胞之间的差异表达(DE)基因中都没有“不平衡”。也就是说,基因的一个子集的任何上调都可以通过不同基因子集中的相同下调幅度来抵消。这样可以通过避免合成效应来确保文库大小是相对于细胞特异性相对偏倚的无偏估计。但是,平衡的DE通常在scRNA-seq应用中不存在,这意味着文库大小归一化可能无法为下游分析产生准确的归一化表达值。

在实践中,标准化的准确性不是探索性scRNA-seq数据分析的主要考虑因素。成分偏差通常不会影响细胞群的分离,而只会影响细胞群或细胞类型之间的对数倍数变化的幅度——向着程度较小的方向。因此,库大小归一化通常在许多应用中都是足够的,这些应用的目的是识别细胞群和定义每个细胞群的top标记。

如前所述,当样本之间存在任何不平衡的差异表达时,就会出现成分偏差。以两个细胞举例,其中单个基因X与细胞B相比在细胞A中被上调。这种上调意味着(i)更多的测序资源用于A中的X,从而当每个细胞的总文库大小通过实验确定时(例如,由于文库量化);其他的非差异基因的覆盖率降低,或(ii)当为X分配更多的读数或UMI时,A的文库大小增加,从而增加了文库大小因子,并为所有非DE基早老或因产生了较小的归一化表达值。在这两种情况下,最终结果是,与B相比,A中的非DE基因将被错误地下调。

对于大量RNA测序数据分析,消除成分偏差是一个经过充分研究的问题。可以使用 DESeq2 包中的 estimateSizeFactorsFromMatrix() 函数或 edgeR 包中的 calcNormFactors() 函数来执行规范化。这些假设大多数基因不是细胞之间的DE。假设两个细胞之间多数非DE基因之间的计数大小的任何系统性差异都代表了偏差,该偏差用于计算适当的大小因子以将其去除。

然而,由于存在大量的低计数和零计数,单细胞数据应用这些bulk归一化方法可能会有问题。为了克服这个问题,我们汇总了许多细胞的计数以进行准确的大小因子估算。然后,将基于库的大小因子“分解”为基于细胞的大小因子,以标准化每个细胞的表达谱。如下所示,这是使用来自scran的 computeSumFactors() 函数执行的。

我们使用带有 quickCluster() 的预聚类步骤,其中每个聚类中的细胞分别进行归一化,并且将大小因子重新缩放以在各个聚类中具有可比性。这避免了在整个种群中大多数基因都是非DE的假设-在成对的簇之间仅需要非DE多数,这对于高度异质的种群来说是一个较弱的假设。默认情况下, quickCluster() 将基于irlba软件包中的方法对PCA使用近似算法。近似值依赖于随机初始化,因此我们需要设置随机种子(通过set.seed())以实现可重现性。

我们看到,解卷积大小因子与图7.2中的库大小因子表现出特定于细胞类型的偏差。这与由细胞类型之间强烈的差异表达引入的成分偏倚的存在是一致的。去卷积大小因子的使用针对这些偏差进行调整,以提高下游应用程序的归一化精度。

准确的归一化对于涉及对每个基因统计信息的估计和解释的过程而言最重要。 例如,成分偏倚会通过系统性地将对数倍数变化沿一个方向或另一个方向转移来破坏DE分析。 但是,对于基于细胞的分析(如聚类分析),与简单的库大小归一化相比,它往往提供的好处较少。 成分偏差的存在已经暗示了表达谱的巨大差异,因此更改标准化策略不太可能影响聚类过程的结果。

spike-in归一化基于以下假设:向每个细胞中添加了相同量的spike-in RNA。spike-in转录本覆盖范围的系统差异仅归因于细胞特异性偏差,例如捕获效率或测序深度。为了消除这些偏差,我们通过缩放“ spike-in size factor”来均衡细胞间的spike-in覆盖范围。与以前的方法相比,spike-in归一化不需要系统的生物学假设(即,没有许多DE基因)。取而代之的是,它假定将掺入的spike-in转录本(i)以恒定的水平添加到每个细胞中,并且(ii)以与内源基因相同的相对方式响应偏倚。

实际上,如果需要关注单个细胞的总RNA含量差异,并且必须保留在下游分析中,则应使用加标归一化。对于给定的细胞,内源RNA总量的增加不会增加其spike-in大小因子。这确保了总RNA含量在群体间的表达差异不会在缩放时消除。相比之下,上述其他标准化方法将仅将总RNA含量的任何变化解释为偏差的一部分,并将其消除。

举个例子,在不同亲和力的T细胞受体配体刺激后,在涉及T细胞活化的不同数据集上使用spike-in归一化

我们应用 computeSpikeFactors() 方法来估计所有细胞的spike-in大小因子。 通过使用与 librarySizeFactors() 中相同的推理,将每个细胞的总spike-in计数转换为大小因子来定义。 scaling将随后消除细胞间spike-in覆盖率的任何差异。

我们观察到每种处理条件下spike-in大小因子和解卷积大小因子之间存在正相关关系(图7.3),表明它们在测序深度和捕获效率上捕获了相似的技术偏倚。 但是,我们还观察到,就亲和力或时间的增加而言,对T细胞受体的刺激不断增加,导致spike-in因子相对于文库大小因子而言有所降低。 这与刺激过程中生物合成活性和总RNA含量的增加一致,这减少了每个文库中的相对spike-in覆盖率(从而减少了spike-in大小因子),但增加了内源基因的覆盖率(因此增加了文库大小因子)。

两组尺寸因子之间的差异对下游解释产生了实际影响。 如果将spike-in 大小因子应用于计数矩阵,则未刺激细胞中的表达值将按比例放大,而受刺激细胞中的表达将按比例缩小。 但是,如果使用反卷积大小因子,则会发生相反的情况。 当我们在标准化策略之间切换时,这可以表现为条件之间DE的大小和方向的变化,如下Malat1所示(图7.4)。

一旦计算出大小因子,就可以使用scater中的 logNormCounts() 函数为每个细胞计算归一化的表达值。 这是通过将每个基因/spike-in转录本的计数除以该细胞的合适大小因子来完成的。 该函数还对归一化后的值进行对数转换,从而创建了一个称为“ logcounts”的新assay。 这些对数值将在以下各章中作为我们下游分析的基础。

对数转换很有用,因为对数值的差异表示基因表达的对数倍变化。这在基于欧几里得距离的下游过程中很重要,下游过程包括许多形式的聚类和降维。通过对对数转换后的数据进行操作,我们确保这些过程基于基因表达的对数倍变化来测量细胞之间的距离。比如,一个在细胞类型A中平均表达量为50,在细胞类型B中表达量为10的基因,或在A中为1100,B中为1000的基因,对数转化可以展现出具有强烈相对差异,因此会关注前者。

在进行对数转换时,我们通常会添加一个伪计数以避免值为零。对于低丰度基因,较大的伪计数将有效地将细胞之间的对数倍变化缩小至零,这意味着下游的高维分析将更多地由高丰度基因的表达差异来驱动。相反,较小的伪计数将增加低丰度基因的相对贡献。常见的做法是使用1的伪计数,原因很简单,即实用的原因是它保留原始矩阵中的稀疏性(即原矩阵中的零在变换后仍为零)。除大多数病理情况外,此方法在所有情况下均有效。

顺便说一句,伪计数的增加是出于将尺寸因子居中统一的动机。这确保了伪计数和规范化的表达式值都在同一范围内。伪计数为1可以解释为每个基因的额外reads或UMI。实际上,居中意味着随着计数深度的提高,伪计数的收缩效果减小。这正确地确保了表达的对数倍变化的估计(例如,根据细胞组之间对数值的差异)随着覆盖范围的扩大而变得越来越准确。相反,如果将恒定的伪计数应用于类似百万分之一的度量,则无论我们执行了多少额外的测序,后续对数倍更改的准确性都将永远不会提高。

在极少数情况下,出于由A.Lun所描述的影响,不适合直接对计数进行缩放。 简而言之,这是由于对数归一化计数的平均值与对数变换后的归一化计数的平均值不同而造成的。 它们之间的差异取决于原始计数的均值和方差,因此相对于计数大小,对数计数的平均值存在系统的趋势。 这通常表现为即使在文库大小归一化之后,轨迹也与文库大小密切相关,如图7.5所示,通过合并和拆分方法生成的合成scRNA-seq数据如图5所示。

由于问题是由于计数大小的差异而引起的,因此最直接的解决方案是降低取样高覆盖率细胞的以匹配低覆盖率细胞。 这使用大小因子来确定达到大小因子的第1个百分位数所需的每个细胞的减采样。 (只有少数几个具有较小尺寸因子的细胞被简单地按比例放大。我们不会尝试将采样缩减为最小尺寸因子,因为这将导致一个尺寸因子非常低的异常细胞过度丢失信息。)我们可以看到 这消除了前两个PC中与库大小因子相关的轨迹,从而提高了基于混合比的已知差异的分辨率(图7.6)。 对数转换仍然是必需的,但是当细胞之间的计数大小相似时,不再会导致均值变化。

虽然减采样是一种方便的解决方案,但由于需要增加高覆盖率细胞的噪声以避免与低覆盖率细胞之间的差异,因此它在统计上是无效的。 它也比简单缩放慢。 因此,我们只建议在按比例缩放的初始分析显示与大小因子高度相关的可疑轨迹后再使用此方法。 在这种情况下,通过减采样重新确定轨迹是否是对数转换的伪像是一件简单的事情。

『柒』 单细胞数据整合分析——批次效应(batch effect)去除

在单细胞分析当中,经常会遇到整合分析的问题,即去除多样本数据之间的 批次效应(batch effect) ,那么什么是批次效应呢?简而言之,批次效应就是由于不同时间、不同实验人员、不同仪器等因素造成的实验性误差,而非本身的生物学差异。如果我们不去除批次效应,那么这些差异就会和本身的生物学差宴蚂郑异相混淆。但是随着测序成本的降低,单细胞测序已经“深入寻常百姓家”,所以在追求大数据量的同时,肯定会伴随着batch effect的产生,自然batch effect的去除就成为单细胞数据分析的重要技能。2020年发表在 Genome Biology 上的一篇文章系统性总结了目前的batch effect去除方法。

今天给大家分享几种目前使用比较广泛的单细胞数据整合分析的方法。 本次演示所使用的示例数据如有需要,可在留言区留言获取。

首先是直接使用merge()函数对两个单细胞数据进行直接整合,这时我们需要准备的输入文件为一个 由需要去除batch effect的Seurat对象组成的列表 ,那么如何实现呢?

注意,我们这里的数据是怎么存放的,我们在 GSE129139_RAW/ 这个文件夹下面存放着我们需要去除batch effect的样品数据,一个样品,一个文件夹,每个文件夹里面是什么就不用说了吧!

上面的code实际上做了这样的一件事:按顺序读取了存放着三个Read10X()输入文件的文件夹,并依次创建了Seurat对象,存放在一个名为sceList的列表中。
然后我们利用merge()函数进行数据的整合:

需要注意的是:(1)我们想把sample信息添加到cell barcode上,只需要添加add.cell.ids参数即可,这个参数赋给它一个向量;(2)上述的merge()默认只会简单整晌颂合源数据(raw data),如果你的Seurat对象是已经经过NormalizeData()的,可以直接添加merge.data = TRUE,来merge标准化物芹后的数据。

By default, merge() will combine the Seurat objects based on the raw count matrices, erasing any previously normalized and scaled data matrices. If you want to merge the normalized data matrices as well as the raw count matrices, simply pass merge.data = TRUE . This should be done if the same normalization approach was applied to all objects.

这是Seurat为了适应大需求添加的新功能,锚点整合是从Seurat3开始上线的,其原理在这里不赘述,放出原始论文链接 Stuart , Butler , et al., Cell 2019 [Seurat V3]
同样是需要由几个Seurat对象组成的列表作为输入,不同的是, 我们需要提前对数据进行NormalizeData()和FindVariableFeatures()处理

需要注意的是,从这里开始,后面的数据分析请指定assay为integrated,否则你还在用原始的RNA assay进行分析,等于没整合。你可以通过以下命令更改默认assay,这样就不用每次都进行声明!

harmony单细胞数据整合方法于2019年发表在 Nature Methods 上,题为 Fast, sensitive and accurate integration of single - cell data with Harmony 。harmony整合方法算得上是一种比较好的方法,目前应用也是比较多的,原理见文章,这里继续展示具体流程:

需要注意的是,如果你用harmony整合,后续的下游分析,请指定 rection = 'harmony' ,否则你的整合没有意义。

阅读全文

与细胞大数据分析相关的资料

热点内容
如何修改5g手机的5g网络 浏览:486
为什么网站查不到流量 浏览:215
微信录音怎么录音文件 浏览:450
iphone6显示无法满屏 浏览:747
2602i升级胖ap 浏览:642
macbookair怎么关闭程序 浏览:485
有道机器人编程课怎么样 浏览:791
商业银行app如何查看银行卡号 浏览:522
贵港市直播app开发怎么样 浏览:674
iphone6画面同步电脑 浏览:801
adf上传文件 浏览:772
微信撩妹表情包 浏览:935
作息app 浏览:24
29星卡哪些app免流 浏览:842
如何查找历史地震数据 浏览:315
iphone6港版和国行哪个好 浏览:760
word录制新宏 浏览:939
官方航班app有哪些 浏览:836
jssubstring中文 浏览:463
读取小米路由器文件 浏览:739

友情链接