『壹』 Scanorama ---整合單細胞的大數據
2018-07-19每日晌虧猜文獻:Panoramic stitching of heterogeneous single-cell transcriptomic data
作者提出了一種工具,Scanorama ,利用了全景拼接的演算法,將來源於不同技術的單細胞的datasets進行整合。
使用的數據集:105476 cells from 26 scRNA-seq experiments across 9 different technonlogies to make a single comprehensive reference.
http://cb.csail.mit.e/cb/scanorama/
https://github.com/brianhie/scanorama
文中提到:
Seurat CCA 和 MNN 假設兩個數據集之間至少有一種宴型相同的cell type, 或者基因表達譜具有相同的相關結構(??),因此限制了使用。
Scanorama 跟圖像拼接類似,也是根據兩個數據集overlap的區域來進行batch-correction 和intergration。 優勢:能夠保留數據 specific population,也不需要所有的dataset share相同的cell type。空卜 信息的丟失??
利用mutual nearest neighbors matching ,主要能夠尋找兩個數據集的相似部分,而不是整個大數據中的相似部分。MNN ,針對多於兩個datasets的比對,先選擇一個作為reference,之後將其他的datasets和這個datasets做integrate,所以整合的效果很看重 數據的順序
Scanorama 的兩個關鍵性步驟:1.使用SVD(singular value decomposition) 將高維的數據降維。2.基於超敏感局部敏感散列和隨機投影樹來構建近鄰法,節約時間。
接下來,使用模擬和真實的數據集進行模擬,真實的數據集包括:293T cell and Jurkat cells,HSC data,pancreas data,105476 cells dataset.
文章重點強調:1.相同的細胞類型能merge在一起,2.保留數據集獨特的細胞。3.根據alignment genes來監控兩個數據的比對。4.運行速度快。十萬細胞只需要25分鍾(10核,384GB RAM)。
1.可以嘗試使用它來做整個物種數據的大圖,數據的整合可以用,但是對於其normalization的方法以及是否能夠找markers存在疑問。
2.好奇它與MNN 之間的差異,都是使用mutual nearest neighbor,區別到底在哪裡??
需要嘗試使用
『貳』 細胞分析是什麼
就是抽靜脈血,分析各類血細胞的數目。比較全的全血細胞分析檢查的具體項目有:\x0d\x0a白細胞總數3.20~9.00\x0d\x0a中性粒細胞百分率37.00~80.00\x0d\x0a淋巴細胞百分喊皮率20.5~51.10\x0d\x0a單核細胞百分率0.00~12.00\x0d\x0a嗜酸性粒細胞百分基派率0.00~7.00\x0d\x0a嗜鹼性粒細胞百分率0.00~2.50\x0d\x0a中性粒細胞絕對值2.00~6.90\x0d\x0a淋巴細胞絕對值0.90~5.20\x0d\x0a單核細胞絕對值0.00~0.90\x0d\x0a嗜酸性粒細胞絕對值0.00~0.70\x0d\x0a嗜鹼性粒細胞絕對值0.00~0.40\x0d\x0a紅細胞計數3.69~5.17\x0d\x0a血紅蛋白117.00~157.80\x0d\x0a紅細胞壓積33.00~43.00\x0d\x0a紅搏滲賀細胞平均體積76.00~96.00\x0d\x0a紅細胞平均血紅蛋白含量26.92~35.50\x0d\x0a紅細胞平均血紅蛋白濃度346.00~378.00\x0d\x0a平均RBC血紅蛋白濃度329.00~360.00\x0d\x0a平均紅細胞血紅蛋白含量27.20~34.30\x0d\x0a紅細胞體積分布寬度12.00~16.00\x0d\x0a血紅蛋白分布寬度22.00~32.00\x0d\x0a血小板計數98.70~302.90\x0d\x0a血小板平均體積8.70~17.40
『叄』 10X單細胞數據整合分析Seurat之rpca(large data,細胞量超過20萬)
PCA(Principal Component Analysis),即主成分分析方法,是一種使用最廣泛的數據降維演算法。PCA的主要思想是將n維特徵映射到k維上,這k維是全新的正交特徵也被稱為主成分,是在原有n維特徵的基礎上重新構造出來的k維特徵。PCA的工作就是從原始的空間中順序地找一組相互正交的坐標軸,新的坐標軸的選擇與數據本身是密切相關的。其中,第一個新坐標軸選擇是原始數據中方差最大的方向,第二個新坐標軸選取是與第一個坐標軸正交的平面中使得方差最大的,第三個軸是與第1,2個軸正交的平面中方差最大的。依次類推,可以得到n個這樣的坐標軸。通過這種方式獲得的新的坐標軸,我們發現,大部分方差都包含在前面k個坐標軸中,後面的坐標軸所含的方差幾乎為0。於是,我們可以忽略餘下的坐標軸,只保留前面k個含有絕大部分方差的坐標軸。事中陵實上,這相當於只保留賣旦戚包含絕大部分方差的維度特徵,而忽略包含方差幾乎為0的特徵維度,實現對數據特徵的降維處理。
思考:我們如何得到這些包含最大差異性的主成分方向呢?
答案:事實上,通過計算數據矩陣的協方差矩陣,然後得到協方差矩陣的特徵值特徵向量,選擇特徵值最大(即方差最大)的k個特徵所對應的特徵向量組成的矩陣。這樣就可以將數據矩陣轉換到新的空間當中,實現數據特徵的降維。
由於得到協方差矩陣的特徵值特徵向量有兩種方法:特徵值分解協方差矩陣、奇異值分解協方差矩陣,所以PCA演算法有兩種實現方法:基於特徵值分解協方差矩陣實現PCA演算法、基於SVD分解協方差矩陣實現PCA演算法。
演算法的話大家自行學習一下把,可參考上述文章。
Robust PCA考慮的是這樣一個問題:一般的數據矩陣D包含結構信息,也包含雜訊。那麼可以將這個矩陣分解為兩個矩陣相加: D = A + E , A是低秩的(由於內部有一定的結構信息造成各行或列間是線性相關的),E是稀疏的(含有雜訊,則是稀疏的)
首先闡述低秩和稀疏的區別和聯系
稀疏和低秩的相同點在於都表明矩陣的信息冗餘比較大。具體來說, 稀疏意味著有很多零,即可以壓縮(10X單細胞數據的特點) ;低秩意味著矩陣有很多行(列)是線性相關的( 單細胞數據PCA的前提 )。
秩可以理解為圖像所包含的信息的豐富程度,秩越低表示數據冗餘性越大,因為用很少幾個基就可以表達所有數據了。遲啟相反,秩越大表示數據冗餘性越小。
與經典PCA一樣,Robust PCA(魯棒主成分分析)本質上也是尋找數據在低維空間上的最佳投影問題。當觀測數據較大和數據含有雜訊時,PCA無法給出理想的結果,而Robust PCA能夠從較大的且稀疏雜訊污染的觀測數據中恢復出本質上低秩的數據( 這一點厲害了 )。
當然,這個過程跟PCA一樣,充滿了數學公式和演算法,需要數學界的大牛來為我們解惑了,但是我們基本的內容我們需要知道,單細胞的數據矩陣分解為兩個矩陣,低秩矩陣和雜訊矩陣,而雜訊矩陣具有很強的稀疏性(很符合單細胞數據的特點)
其實知道了rpca的基礎運用之後,不難理解rpca為什麼用在large data的整合分析了,我們來看看:
數據過大Seurat給出了優化的方法:
For very large datasets, the standard integration workflow can sometimes be prohibitively computationally expensive. In this workflow, we employ two options that can improve efficiency and runtimes:
也就是說,沒有指定的情況下(默認情況),成對樣本的anchors都會去發現,如果指定了ref,anchors are first found between each query and each reference. The references are then integrated through pairwise integration. Each query is then mapped to the integrated reference. 當然,數據量小的前提下不需要指定ref ,我們再往下分析:
The main efficiency improvements are gained in FindIntegrationAnchors(),rpca取代了cca,to identify an effective space in which to find anchors. 在使用rPCA確定任意兩個數據集之間的錨點時,我們將每個數據集投影到其他PCA空間中,並通過相同的相互鄰域要求約束錨點,All downstream integration steps remain the same and we are able to 『correct』 (or harmonize) the datasets.
Additionally, we use reference-based integration. In the standard workflow, we identify anchors between all pairs of datasets. While this gives datasets equal weight in downstream integration, it can also become computationally intensive. For example when integrating 10 different datasets, we perform 45 different pairwise comparisons( 計算量確實很誇張 ). As an alternative, we introce here the possibility of specifying one or more of the datasets as the 『reference』 for integrated analysis, with the remainder designated as 『query』 datasets. In this workflow, we do not identify anchors between pairs of query datasets( 這個地方需要注意一下 ), recing the number of comparisons. For example, when integrating 10 datasets with one specified as a reference, we perform only 9 comparisons( 計算量大大減少 ). Reference-based integration can be applied to either log-normalized or SCTransform-normalized datasets.( 前期處理也必不可少 )。
This alternative workflow consists of the following steps:
注意這里的重點:
下面的就簡單了
當我們的細胞數量超過10萬,這個方法很好,值得學習 。
生活很好,有你更好
『肆』 流式FSC檢測細胞大小,如何分析數據
流式細胞只能比較細胞的相對大小和胞內的復雜程度,FSC對應的是細胞的相對大小,FSC的值越大表示細胞越大,SSC對應的是細胞內部復雜程度,SSC的值越大說明細胞內部的顆粒越多。
在檢測細胞大小的變化是,應使用未處理的簡虛細胞為對照,確定電壓等檢測條件後,在不改變檢測條件的前提下,對處理後的細胞進行分析,檢測處理後細胞FSC的變化。如果以FSC為橫坐標、SSC為縱坐標,處理後的細胞往右偏移則表示細胞變大了;如果處理後的細胞發生了分群,分別設門圈定這沒陪些細胞群,就可測出每一群細胞在整個細胞群中的比例及其 大小的變化。
下圖為某細胞經處理枯咐蠢後細胞大小發生改變的一個例子。
『伍』 中研院:我們在自閉症基因分析有了新發現,這將是一個大進展
日本研究發現:精神分裂症的新葯靶點何謂伊維菌素?長庚大學:這個菌素可抑制新冠病毒JBC:「看得見」,眼睛再循環利用維生素A的機制FASEB:提早預防腦部神經炎症可延緩阿滋海默症的發生自閉症譜系障礙(auti *** spectrum disorder,簡稱ASD)是一種腦部發育障礙所導致的復雜疾病,患者往往在社交溝通、互動及表達上有障礙,成因目前仍未有定論,普遍認為與遺傳及基因變異有關。中央研究院基因體研究中心研究員庄樹諄研究團隊,首次系統性建構環狀RNA(circular RNA1)在自閉症腦部的基因調控網路圖譜,有助於增進對自閉症致病分子機制的理解。該篇論文已於今(109)年3月刊登在《基因體研究》(Genome Research)。
環狀RNA是一種單鏈封閉式環型結構,且特別高度表現在神經系統。庄樹諄研究團隊利用大數據分析找到在自閉症患者大腦皮質中表現量異常的環狀RNA,並預測其調控路徑,結合分子生物實驗後證實:環狀RNA像海綿一樣吸附特定的微RNA(miRNA),使其失去或降低對下游自閉症風險基因調控的能力。有關環狀RNA、微RNA、與下游基因在自閉症腦部的調控網路關系,過去並未被有系統地探討。
不過,中研院今天表示,基因體研究中心研究員庄樹諄研究團隊利用大數據分析,找到在自閉症患者大腦皮質中表現量拿銀沖異常的環狀RNA,並預測其調控路徑,再結合分子生物實驗後證實,環狀RNA像海綿一樣吸附特定的微RNA(miRNA),使其失去或降低對下游自閉症風險基因調控的能力。
偵測在自閉症患者大腦皮質中表現異常的60個環狀RNA。(圖源:中研院)
偵測在自閉症患者大腦皮質中表現異常的60個環狀RNA
中研院說,庄樹諄所率領的大數據分析與神經科學實驗室團隊,透過先前開發的環狀RNA偵測軟體(NCLscan),設計大數據分析流程,從超過200個樣本的轉錄體定序(RNA-seq)資料,找到60個在自閉症患者大腦皮質中表現異常的環狀RNA。再經統計模型分析顯示,根據此60個環狀RNA的表現情形,能有效區別自閉症與非自閉症樣本,因此可判定這些環狀RNA與自閉症的發生應有關連。中研院表示,團隊也進一步預測這些環狀RNA的下游調控路徑,建構出8170個環狀RNA、微RNA、信使RNA(mRNA)間的交互調控網路,接著再透過基因富集分析,發現這些網路所調控的下游目標基因,顯著集中在已知的自閉症風險基因。
環狀RNA調控網路。( 圖源:中研院)
環狀RNA調控網路和自閉症風險基因高度相關
庄樹諄所率領的大數據分析與神經科學實驗室團隊,透過先前開發的環狀RNA偵測軟體(NCLscan),設計大數據分析流程。從超過200個樣本的轉錄體定序(RNA-seq)資料,找到60個在自閉症患者大腦皮質中表現異常的環狀RNA;經統計模型分析顯示,根據此60個環狀RNA的表現情形,能有效區別自閉症與非自閉症樣本,因此可判定這些環狀RNA與自閉症的發生應有關連 。
為此,團隊進一步預測這些環狀RNA的下游調控路徑,建構出8,170個環狀RNA、微RNA、信使RNA(mRNA)間的交互調控網路 ,接著再透過基因富集分析,發現這些網路所調控的下游目標基因,顯著集中在已知的自閉症風險基因搏胡。
庄樹諄說,這個研究除設計大數據分析流程來建構環狀RNA的調控網路關系,也結合分生實驗驗證,團隊挑選一個在自閉症患者腦部表現量明顯上升的環狀RNA(命名為circARID1A),於人類神經細胞實驗驗證後發現,circARID1A確實可藉由調控微RNA(miR-204-3p),影響下游多個自閉症風險基因的表達。
人類神經相消殲關細胞實驗驗證circARID1A確實可藉由調控miR-204-3p影響自閉症風險基因
庄樹諄說明,這個研究除設計大數據分析流程來建構環狀RNA的調控網路關系,也結合分生實驗驗證。團隊挑選一個在自閉症患者腦部表現量明顯上升的環狀RNA(命名為circARID1A),於人類神經細胞實驗驗證後發現, circARID1A確實可藉由調控微RNA(miR-204-3p),影響下游多個自閉症風險基因的表達 。
在人類神經相關細胞實驗驗證circARID1A確實可藉由調控miR-204-3p影響自閉症風險基因的基因表達。(圖源:中研院)
『陸』 完整的單細胞分析流程——數據標化(normalization)
通常在單細胞RNA測序數據中觀察到文庫之間測序覆蓋率的系統差異。它們通常是由細胞間的cDNA捕獲或PCR擴增效率方面的技術差異引起的,這歸因於用最少的起始材料難以實現一致的文庫制備。標准化旨在消除這些差異,以使它們不幹擾細胞之間表達譜的比較。這樣可以確保在細胞群體中觀察到的任何異質性或差異表達都是由生物學而不是技術偏倚引起的。
在這一點上,規范化和批次校正之間的區別需要注意。歸一化的發生與批次結構無關,並陸伍且僅考慮技術偏差,而批次矯正僅在批次之間發生,並且必須同時考慮技術偏差和生物學差異。技術偏倚傾向於以相似的方式或至少以與它們的生物物理特性(例如長度,GC含量)有關的方式影響基因,而批次之間的生物學差異可能是高度不可預測的。這樣,這兩個任務涉及不同的假設,並且通常涉及不同的計算方法(盡管某些軟體包旨在一次執行兩個步驟,例如zinbwave)。因此,避免混淆「標准化」和「批次校正」的數據非常重要,因為這些數據通常表示不同的事物。
我們將主要關注縮放標准化,這是最簡單和最常用的標准化策略。這涉及將每個細胞的所有計數除以特定於細胞的比例因子,通常稱為「大小因子」。這里的假設是,任何細胞特異性偏倚(例如,捕獲或擴增效率)均會通過縮放該細胞的預期平均數來同等地影響所有基因。每個細胞的大小因子表示該細胞中相對偏差的估計,因此,將其計數除以其大小因子應消除該偏差。然後可以將所得的「歸一化數據」用於下游分析,例如聚類和降維。為了演示,我們將使用來自scRNAseq軟體包的數據集。
文庫大小歸一化是執行縮放歸一化的最簡單策略。 我們將文庫的大小定義為每個細胞中所有基因的計數總和,假定其預期值隨任何細胞特異性偏倚而縮放。 然後,在定義比例常數的情況下,每個細胞的「庫大小因子」直接與其庫大小成正比,從而使所有細胞的平均大小因子等於1。此定義可確保歸一化的表達值與原始計數處於相同規模 ——這對解釋很有用——尤其是在處理轉含彎換後的數據時。
在Zeisel腦數據中,文庫大小因子在細胞之間的差異最大10倍。 這是scRNA-seq數據覆蓋范圍變異的典型表現。
嚴格來說,文庫大小因子的使用是假設任何一對細胞之間的差異表達(DE)基因中都沒有「不平衡」。也就是說,基因的一個子集的任何上調都可以通過不同基因子集中的相同下調幅度來抵消。這樣可以通過避免合成效應來確保文庫大小是相對於細胞特異性相對偏倚的無偏估計。但是,平衡的DE通常在scRNA-seq應用中不存在,這意味著文庫大小歸一化可能無法為下游分析產生准確的歸一化表達值。
在實踐中,標准化的准確性不是探索性scRNA-seq數據分析的主要考慮因素。成分偏差通常不會影響細胞群的分離,而只會影響細胞群或細胞類型之間的對數倍數變化的幅度——向著程度較小的方向。因此,庫大小歸一化通常在許多應用中都是足夠的,這些應用的目的是識別細胞群和定義每個細胞群的top標記。
如前所述,當樣本之間存在任何不平衡的差異表達時,就會出現成分偏差。以兩個細胞舉例,其中單個基因X與細胞B相比在細胞A中被上調。這種上調意味著(i)更多的測序資源用於A中的X,從而當每個細胞的總文庫大小通過實驗確定時(例如,由於文庫量化);其他的非差異基因的覆蓋率降低,或(ii)當為X分配更多的讀數或UMI時,A的文庫大小增加,從而增加了文庫大小因子,並為所有非DE基早老或因產生了較小的歸一化表達值。在這兩種情況下,最終結果是,與B相比,A中的非DE基因將被錯誤地下調。
對於大量RNA測序數據分析,消除成分偏差是一個經過充分研究的問題。可以使用 DESeq2 包中的 estimateSizeFactorsFromMatrix() 函數或 edgeR 包中的 calcNormFactors() 函數來執行規范化。這些假設大多數基因不是細胞之間的DE。假設兩個細胞之間多數非DE基因之間的計數大小的任何系統性差異都代表了偏差,該偏差用於計算適當的大小因子以將其去除。
然而,由於存在大量的低計數和零計數,單細胞數據應用這些bulk歸一化方法可能會有問題。為了克服這個問題,我們匯總了許多細胞的計數以進行准確的大小因子估算。然後,將基於庫的大小因子「分解」為基於細胞的大小因子,以標准化每個細胞的表達譜。如下所示,這是使用來自scran的 computeSumFactors() 函數執行的。
我們使用帶有 quickCluster() 的預聚類步驟,其中每個聚類中的細胞分別進行歸一化,並且將大小因子重新縮放以在各個聚類中具有可比性。這避免了在整個種群中大多數基因都是非DE的假設-在成對的簇之間僅需要非DE多數,這對於高度異質的種群來說是一個較弱的假設。默認情況下, quickCluster() 將基於irlba軟體包中的方法對PCA使用近似演算法。近似值依賴於隨機初始化,因此我們需要設置隨機種子(通過set.seed())以實現可重現性。
我們看到,解卷積大小因子與圖7.2中的庫大小因子表現出特定於細胞類型的偏差。這與由細胞類型之間強烈的差異表達引入的成分偏倚的存在是一致的。去卷積大小因子的使用針對這些偏差進行調整,以提高下游應用程序的歸一化精度。
准確的歸一化對於涉及對每個基因統計信息的估計和解釋的過程而言最重要。 例如,成分偏倚會通過系統性地將對數倍數變化沿一個方向或另一個方向轉移來破壞DE分析。 但是,對於基於細胞的分析(如聚類分析),與簡單的庫大小歸一化相比,它往往提供的好處較少。 成分偏差的存在已經暗示了表達譜的巨大差異,因此更改標准化策略不太可能影響聚類過程的結果。
spike-in歸一化基於以下假設:向每個細胞中添加了相同量的spike-in RNA。spike-in轉錄本覆蓋范圍的系統差異僅歸因於細胞特異性偏差,例如捕獲效率或測序深度。為了消除這些偏差,我們通過縮放「 spike-in size factor」來均衡細胞間的spike-in覆蓋范圍。與以前的方法相比,spike-in歸一化不需要系統的生物學假設(即,沒有許多DE基因)。取而代之的是,它假定將摻入的spike-in轉錄本(i)以恆定的水平添加到每個細胞中,並且(ii)以與內源基因相同的相對方式響應偏倚。
實際上,如果需要關注單個細胞的總RNA含量差異,並且必須保留在下游分析中,則應使用加標歸一化。對於給定的細胞,內源RNA總量的增加不會增加其spike-in大小因子。這確保了總RNA含量在群體間的表達差異不會在縮放時消除。相比之下,上述其他標准化方法將僅將總RNA含量的任何變化解釋為偏差的一部分,並將其消除。
舉個例子,在不同親和力的T細胞受體配體刺激後,在涉及T細胞活化的不同數據集上使用spike-in歸一化
我們應用 computeSpikeFactors() 方法來估計所有細胞的spike-in大小因子。 通過使用與 librarySizeFactors() 中相同的推理,將每個細胞的總spike-in計數轉換為大小因子來定義。 scaling將隨後消除細胞間spike-in覆蓋率的任何差異。
我們觀察到每種處理條件下spike-in大小因子和解卷積大小因子之間存在正相關關系(圖7.3),表明它們在測序深度和捕獲效率上捕獲了相似的技術偏倚。 但是,我們還觀察到,就親和力或時間的增加而言,對T細胞受體的刺激不斷增加,導致spike-in因子相對於文庫大小因子而言有所降低。 這與刺激過程中生物合成活性和總RNA含量的增加一致,這減少了每個文庫中的相對spike-in覆蓋率(從而減少了spike-in大小因子),但增加了內源基因的覆蓋率(因此增加了文庫大小因子)。
兩組尺寸因子之間的差異對下游解釋產生了實際影響。 如果將spike-in 大小因子應用於計數矩陣,則未刺激細胞中的表達值將按比例放大,而受刺激細胞中的表達將按比例縮小。 但是,如果使用反卷積大小因子,則會發生相反的情況。 當我們在標准化策略之間切換時,這可以表現為條件之間DE的大小和方向的變化,如下Malat1所示(圖7.4)。
一旦計算出大小因子,就可以使用scater中的 logNormCounts() 函數為每個細胞計算歸一化的表達值。 這是通過將每個基因/spike-in轉錄本的計數除以該細胞的合適大小因子來完成的。 該函數還對歸一化後的值進行對數轉換,從而創建了一個稱為「 logcounts」的新assay。 這些對數值將在以下各章中作為我們下游分析的基礎。
對數轉換很有用,因為對數值的差異表示基因表達的對數倍變化。這在基於歐幾里得距離的下游過程中很重要,下游過程包括許多形式的聚類和降維。通過對對數轉換後的數據進行操作,我們確保這些過程基於基因表達的對數倍變化來測量細胞之間的距離。比如,一個在細胞類型A中平均表達量為50,在細胞類型B中表達量為10的基因,或在A中為1100,B中為1000的基因,對數轉化可以展現出具有強烈相對差異,因此會關注前者。
在進行對數轉換時,我們通常會添加一個偽計數以避免值為零。對於低豐度基因,較大的偽計數將有效地將細胞之間的對數倍變化縮小至零,這意味著下游的高維分析將更多地由高豐度基因的表達差異來驅動。相反,較小的偽計數將增加低豐度基因的相對貢獻。常見的做法是使用1的偽計數,原因很簡單,即實用的原因是它保留原始矩陣中的稀疏性(即原矩陣中的零在變換後仍為零)。除大多數病理情況外,此方法在所有情況下均有效。
順便說一句,偽計數的增加是出於將尺寸因子居中統一的動機。這確保了偽計數和規范化的表達式值都在同一范圍內。偽計數為1可以解釋為每個基因的額外reads或UMI。實際上,居中意味著隨著計數深度的提高,偽計數的收縮效果減小。這正確地確保了表達的對數倍變化的估計(例如,根據細胞組之間對數值的差異)隨著覆蓋范圍的擴大而變得越來越准確。相反,如果將恆定的偽計數應用於類似百萬分之一的度量,則無論我們執行了多少額外的測序,後續對數倍更改的准確性都將永遠不會提高。
在極少數情況下,出於由A.Lun所描述的影響,不適合直接對計數進行縮放。 簡而言之,這是由於對數歸一化計數的平均值與對數變換後的歸一化計數的平均值不同而造成的。 它們之間的差異取決於原始計數的均值和方差,因此相對於計數大小,對數計數的平均值存在系統的趨勢。 這通常表現為即使在文庫大小歸一化之後,軌跡也與文庫大小密切相關,如圖7.5所示,通過合並和拆分方法生成的合成scRNA-seq數據如圖5所示。
由於問題是由於計數大小的差異而引起的,因此最直接的解決方案是降低取樣高覆蓋率細胞的以匹配低覆蓋率細胞。 這使用大小因子來確定達到大小因子的第1個百分位數所需的每個細胞的減采樣。 (只有少數幾個具有較小尺寸因子的細胞被簡單地按比例放大。我們不會嘗試將采樣縮減為最小尺寸因子,因為這將導致一個尺寸因子非常低的異常細胞過度丟失信息。)我們可以看到 這消除了前兩個PC中與庫大小因子相關的軌跡,從而提高了基於混合比的已知差異的解析度(圖7.6)。 對數轉換仍然是必需的,但是當細胞之間的計數大小相似時,不再會導致均值變化。
雖然減采樣是一種方便的解決方案,但由於需要增加高覆蓋率細胞的雜訊以避免與低覆蓋率細胞之間的差異,因此它在統計上是無效的。 它也比簡單縮放慢。 因此,我們只建議在按比例縮放的初始分析顯示與大小因子高度相關的可疑軌跡後再使用此方法。 在這種情況下,通過減采樣重新確定軌跡是否是對數轉換的偽像是一件簡單的事情。
『柒』 單細胞數據整合分析——批次效應(batch effect)去除
在單細胞分析當中,經常會遇到整合分析的問題,即去除多樣本數據之間的 批次效應(batch effect) ,那麼什麼是批次效應呢?簡而言之,批次效應就是由於不同時間、不同實驗人員、不同儀器等因素造成的實驗性誤差,而非本身的生物學差異。如果我們不去除批次效應,那麼這些差異就會和本身的生物學差宴螞鄭異相混淆。但是隨著測序成本的降低,單細胞測序已經「深入尋常百姓家」,所以在追求大數據量的同時,肯定會伴隨著batch effect的產生,自然batch effect的去除就成為單細胞數據分析的重要技能。2020年發表在 Genome Biology 上的一篇文章系統性總結了目前的batch effect去除方法。
今天給大家分享幾種目前使用比較廣泛的單細胞數據整合分析的方法。 本次演示所使用的示例數據如有需要,可在留言區留言獲取。
首先是直接使用merge()函數對兩個單細胞數據進行直接整合,這時我們需要准備的輸入文件為一個 由需要去除batch effect的Seurat對象組成的列表 ,那麼如何實現呢?
注意,我們這里的數據是怎麼存放的,我們在 GSE129139_RAW/ 這個文件夾下面存放著我們需要去除batch effect的樣品數據,一個樣品,一個文件夾,每個文件夾裡面是什麼就不用說了吧!
上面的code實際上做了這樣的一件事:按順序讀取了存放著三個Read10X()輸入文件的文件夾,並依次創建了Seurat對象,存放在一個名為sceList的列表中。
然後我們利用merge()函數進行數據的整合:
需要注意的是:(1)我們想把sample信息添加到cell barcode上,只需要添加add.cell.ids參數即可,這個參數賦給它一個向量;(2)上述的merge()默認只會簡單整晌頌合源數據(raw data),如果你的Seurat對象是已經經過NormalizeData()的,可以直接添加merge.data = TRUE,來merge標准化物芹後的數據。
By default, merge() will combine the Seurat objects based on the raw count matrices, erasing any previously normalized and scaled data matrices. If you want to merge the normalized data matrices as well as the raw count matrices, simply pass merge.data = TRUE . This should be done if the same normalization approach was applied to all objects.
這是Seurat為了適應大需求添加的新功能,錨點整合是從Seurat3開始上線的,其原理在這里不贅述,放出原始論文鏈接 Stuart , Butler , et al., Cell 2019 [Seurat V3]
同樣是需要由幾個Seurat對象組成的列表作為輸入,不同的是, 我們需要提前對數據進行NormalizeData()和FindVariableFeatures()處理 :
需要注意的是,從這里開始,後面的數據分析請指定assay為integrated,否則你還在用原始的RNA assay進行分析,等於沒整合。你可以通過以下命令更改默認assay,這樣就不用每次都進行聲明!
harmony單細胞數據整合方法於2019年發表在 Nature Methods 上,題為 Fast, sensitive and accurate integration of single - cell data with Harmony 。harmony整合方法算得上是一種比較好的方法,目前應用也是比較多的,原理見文章,這里繼續展示具體流程:
需要注意的是,如果你用harmony整合,後續的下游分析,請指定 rection = 'harmony' ,否則你的整合沒有意義。