代謝組學研究中,差異代謝物的篩選是數(shù)據分析重要的一環(huán),但由于代謝組數(shù)據具有多維且某些變量間高度相關的特點,所以分析方法有很多,如PCA、PLS-DA以及OPLS-DA分析等。
1. 代謝組學常用的顯著性檢驗方法:
p值是一個概率,反映某一事件發(fā)生的可能性大小,用于區(qū)分該變量是否具有統(tǒng)計顯著性,通常認為p<0.05具有統(tǒng)計學意義。常用的檢驗方法有t-test、方差分析(Analysis of Variance, ANOVA)。t檢驗一般適用于兩組差異比較,在多維的情況下就要用到ANOVA方差分析。
(圖片來源于網絡,侵刪)
2. 單變量分析方法-差異倍數(shù)分析在代謝組學兩兩比較中是較為常見的,但多組比較為什么沒有呢?
差異倍數(shù)(Fold Change,簡稱FC值)分析即根據代謝物的相對定量或絕對定量結果,計算某個代謝物在兩組間表達量的差異。差異倍數(shù)作為上下調的一個標準,假設比較組為AvsB,計算方式為:FC=B/A,F(xiàn)C大于1為上調,小于1為下調(這個標準不是固定的,也可以設置的更為嚴格一點,比如調整為1.2倍、1.5倍或者2倍,這三種閾值在代謝組研究相關文章中是較為常見的)。我們說上下調,一般都是指和某一組相比,另一組上調或者下調,三組或者多組的時候是無法定義和哪組相比其他幾組高或者低的,因此差異倍數(shù)是在兩兩比較中產生的。
3. 多元統(tǒng)計分析
多元統(tǒng)計分析分為無監(jiān)督分析方法和有監(jiān)督分析方法。在代謝組學分析中無監(jiān)督分析有主成分分析(PCA),而有監(jiān)督分析方法主要是偏最小二乘判別分析(PLS-DA)和正交偏最小二乘判別分析(OPLS-DA)。
因無外加人為因素,得到的PCA模型反映了代謝組數(shù)據的原始狀態(tài),有利于掌握數(shù)據的整體情況并對數(shù)據從整體上進行把握,并從中揭示出數(shù)據集中觀測數(shù)據的分組、趨勢以及離群。對明顯不同于大部分樣品的離群樣品,可加以甄別或剔除。另外,如果存在質控樣品,PCA還可進行質控,如果質控樣品分布點越靠近,則說明系統(tǒng)穩(wěn)定,檢測質量沒有問題。
與PCA只有一個數(shù)據集不同,PLS-DA在分析時必須對樣品進行指定并分組,這樣模型會自動加上另外一個隱含的數(shù)據集Y。因為PLS-DA在建模時對樣品進行了指定和分組,所以能更大地區(qū)分組間差異,但這也導致數(shù)據的PLS-DA模型存在過擬合(overfitting)的問題, 會造成模型失真, 在實際數(shù)據分析時應注意驗證模型有效性和可靠性。
OPLS-DA使用正交信號校正技術,將X矩陣信息分解成與Y相關和不相關的兩類信息,然后過濾掉與分類無關的信息,相關的信息主要集中在第一個預測成分,有效減少模型的復雜性和增強模型的解釋能力,從而較大程度查看組間差異。OPLS-DA 得分圖,從橫坐標的方向可以看到組間的差異;從縱坐標上看出組內的差異(組內樣本間的差異)。
4. 代謝組學常用到的差異代謝產物的數(shù)據分析方法:
單變量分析方法是簡單常用的實驗數(shù)據分析方法。在進行兩組樣本間的差異代謝物分析時,常用的單變量分析方法包括差異倍數(shù)分析(Fold Change Analysis,F(xiàn)C Analysis)、T 檢驗,以及綜合前兩種分析方法的火山圖(Volcano Plot)。
多元統(tǒng)計分析中無監(jiān)督分析有主成分分析(PCA),而有監(jiān)督分析方法主要是偏最小二乘判別分析(PLS-DA)和正交偏最小二乘判別分析(OPLS-DA)。
VIP(Variable important in projection)是(O)PLS-DA模型變量的變量權重值,來衡量各代謝物的表達模式對各組樣本分類判別的影響強度和解釋能力,挖掘具有生物學意義的差異代謝物。
由于代謝組數(shù)據具有多維且某些變量間高度相關的特點,運用傳統(tǒng)的單變量分析無法快速、充分、準確地挖掘數(shù)據內潛在的信息,因此一般采用多元統(tǒng)計分析方法,可以在較大程度保留原始信息的基礎上將高維復雜的數(shù)據進行“簡化和降維”,建立可靠的數(shù)學模型對研究對象的代謝譜特點進行歸納和總結。因此代謝組學推薦使用單維和多維的方法進行結合,有助于我們從不同角度觀察數(shù)據,得出結論。所以選擇P值小于0.05與VIP值大于1作為常見的差異代謝物篩選標準。
5. 代謝組學中LC-MS與GC-MS數(shù)據的區(qū)別:
1)LC-MS根據電離方式不同,可分為電噴霧離子源(ESI)和大氣壓化學電離源(APCI) 2 種工作方式;GC-MS有電子轟擊電離(EI)、正化學電離(CI)、負化學電離(NCI)3種電離方法,其中前兩者較常用。
2)LC-MS是在正、負離子兩種模式下工作的,得到的數(shù)據形式也是不一樣的,而對代謝物的統(tǒng)計學分析時也是分開的,但在代謝通路分析時(或者合并分析時),會將正負離子結合,有重復時選擇兩種模式中響應較高的一個模式。
3)GC-MS通常只能在單一離子模式下工作,得到的數(shù)據模式非負即正,可根據實際的離子源進行判斷,因此在分析時工作量就少了一半。再加上由于掃描離子范圍的差別,LC-MS獲得的數(shù)據量明顯更多。
相比于GC-MS,LC-MS一般無需衍生處理,分析平行性更好,更適合大規(guī)模樣本的分析。代謝數(shù)據有著典型的高維度、高噪聲等特性,并且存在數(shù)量級的差異,因此還需要對數(shù)據進行樣本間和代謝物間的歸一化處理,以確保各樣本之間和代謝物之間可平行比較。歸一化的方法:內標歸一化、總峰面積歸一化和QC歸一化。簡單來說,就是對代謝數(shù)據集進行一系列的數(shù)值處理,把數(shù)據拉到一個特定范圍里,轉換為可用于進一步統(tǒng)計分析的可用形式。