人類生殖細胞突變背后的生物學機制很大程度上并不清楚,近幾十年的實驗研究揭示出了各種各樣DNA復制和修復的可能錯誤模式,但是還沒有哪種機制被闡明可能是人類生殖細胞突變的主要原因。為了對人類生殖細胞系中的突變進行全面分類和理解,美國哈佛醫(yī)學院Shamil Sunyaev研究組在Science發(fā)文題為Population sequencing data reveal a compendium of mutational processes in the human germ line,通過使用體積正則化非負矩陣分解(Volume-regularized nonnegative matrix factorization)的方法,給出了群體測序數(shù)據(jù)統(tǒng)計分解沿基因組突變率和圖譜的變異過程,揭示出人類生殖細胞突變過程的概要。
在該工作中,作者們所采用的思路是利用基因組的突變率變化來模擬生殖細胞系的突變。作者們通過對基因組中192個三核苷酸突變類型和不同強度的譜圖來對生殖細胞系中的突變機制進行描述。從基因組位點突變圖譜的變異性推斷突變過程其實是一個經(jīng)典的非負矩陣因子分解(Nonnegative matrix factorization,NMF)的問題。NMF將一組非負信號也就是突變過程從觀察到的突變頻率中分離出來。然而,NMF可以有許多具有相同近似性質(zhì)的解,所以在該問題單純的NMF并不能對生殖細胞系中的突變機制進行解釋。
所以作者們對NMF的方法進行了優(yōu)化,構建了體積正則化非負矩陣分解的方法對生殖細胞系中的突變與突變頻率之間的機制進行分類和揭示。反向平行DNA鏈之間的對稱性為評估和推斷生物學過程相關性提供了一種有力的方法。轉(zhuǎn)錄和復制等過程會打破這種對稱性,而這些機制與突變機制是相互依賴的。對于一個DNA鏈依賴的突變機制,統(tǒng)計程度相同,舉例來說A>G與T>C的突變頻率是相同的,但是對于DNA鏈非依賴的突變機制這兩種突變的頻率則并不相同。作者們將該體積正則化非負矩陣分解的方法應用到TOPMed 數(shù)據(jù)庫中2.92億非常罕見的單核苷酸變異的分析之中。對該數(shù)據(jù)庫應用體積正則化非負矩陣分解后作者們共識別出14種突變以及突變頻率分類(圖1),并且通過對gnomAD數(shù)據(jù)庫的重采樣分析發(fā)現(xiàn)具有同樣穩(wěn)健性和準確性的組成分類。
圖1 體積正則化非負矩陣分解TOPMed數(shù)據(jù)庫的14個組分分類以及相應突變率
14個組分分別對應9個突變過程,其中五個DNA鏈依賴的由兩種組成分類表示以及4個DNA鏈獨立的突變過程。這些過程只與一個或兩個基因組特征相關,包括基因體、復制時間、復制方向和染色質(zhì)可及性。舉例來說,過程1/2是DNA鏈依賴的,是大體積DNA損傷不對稱分辨的足跡,在發(fā)育早期的強度較低,嵌合A>G/T>C突變轉(zhuǎn)錄對稱的方向相反。DNA鏈依賴過程3/4捕獲的是不對稱復制錯誤,其不對稱性與復制的方向有關,由大量的DNA損傷組成的。過程5/6在L1PA LINE重復序列的非轉(zhuǎn)錄鏈上強度升高。再比如,過程10是以CpG轉(zhuǎn)變?yōu)樘卣?,主要由甲基胞嘧啶脫氨或甲基胞嘧啶的錯誤復制所介導的。
總的來說,作者們的工作通過體積正則化非負矩陣分解的方法揭示出了TOPMed數(shù)據(jù)庫中突變特性差異的發(fā)生過程,并且作者們?yōu)槠渲械亩鄠€過程提供了可能的生物學機制解釋,為理解人類生殖細胞系中突變的發(fā)生過程給出了新的分析方法和思考方式。
原文鏈接:
http://doi.org/10.1126/science.aba7408
來源: “BioArt” 如有侵權請聯(lián)系刪除 !