[發(fā)明專利]一種基于域對抗和變分推斷的單細胞數據整合方法在審
| 申請?zhí)枺?/td> | 202210277775.8 | 申請日: | 2022-03-16 |
| 公開(公告)號: | CN114819056A | 公開(公告)日: | 2022-07-29 |
| 發(fā)明(設計)人: | 呼加璐;趙芮;尚學群;鐘源珂 | 申請(專利權)人: | 西北工業(yè)大學 |
| 主分類號: | G06N3/04 | 分類號: | G06N3/04;G06N3/06;G06N3/08;G16B40/20 |
| 代理公司: | 西安凱多思知識產權代理事務所(普通合伙) 61290 | 代理人: | 劉新瓊 |
| 地址: | 710072 *** | 國省代碼: | 陜西;61 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 對抗 推斷 單細胞 數據 整合 方法 | ||
本發(fā)明涉及一種基于域對抗和變分推斷策略的單細胞數據整合的方法,該方法通過整合跨技術、跨模態(tài)、跨樣本的大規(guī)模的單細胞數據實現高維多模態(tài)單細胞數據的降維和去噪,它可以從多種不同角度準確描述細胞的類型、狀態(tài)。本發(fā)明由于采用深度神經網絡學習的框架,訓練過程中采用小批量隨機梯度下降的策略搜索最優(yōu)的模型參數,從而可以利用GPU提高訓練并行規(guī)模,減少時間,提高效率。該發(fā)明的主要特征是:1)具有較強的通用性;2)具有可擴展性,3)可以應用于大規(guī)模的單細胞數據。
技術領域
本發(fā)明涉及單細胞多模態(tài)數據整合方法,特別涉及一種基于域對抗學習和變分推斷的單細胞數據整合方法。
背景技術
單細胞測序技術可以定量測量基因的表達水平、全基因組上的DNA甲基化水平、染色質開放區(qū)域可及性和單細胞空間轉錄組表達水平。利用這些技術,現如今已產生了跨越不同的技術、不同樣本和不同模態(tài)的龐大的、全息的、多維度單細胞數據集,這些數據可以用于構建大規(guī)模的綜合性單細胞圖譜。目前,還沒有已知的計算方法可以有效地同時對跨技術、跨樣本、跨模態(tài)的大規(guī)模單細胞數據進行整合。
這一問題難點在于各類數據整合的噪聲特點不一,且各類數據特征各異,最大的挑戰(zhàn)在于尋找一個最優(yōu)的非線性模型,能夠同時擬合各種特征的單細胞數據,識別細胞類型子類及一些稀有細胞。這一問題的解決,急需要設計合適的統(tǒng)計模型和計算方法,開發(fā)可擴展且有效的計算方法來集成大型跨樣本、技術和模式的單細胞數據集,并獲得對細胞異質性、生物狀態(tài)、細胞類型、細胞發(fā)育和復雜組織的空間模式的生物學規(guī)律。單細胞數據整合的主要問題是去除各種數據噪聲,包括批次效應。
在已有的方法中,基于參考數據集的scmap和scAlign算法將參考集圖譜的知識轉移到查詢的單細胞轉錄組數據上,但是這兩個算法無法預測出新的細胞類型;基于因子分析的算法,如:scMerge,LIGER,SPOTLight和Duren等人提出的方法,由于需要消耗大量計算資源,故它們難以整合大規(guī)模的數據;一些深度學習方法的變體,如:DCA,scVI,scGen和DESC,基于自編碼器可以在瓶頸層得到無批次的細胞表示,但由于這些方法的基礎模型是專門為scRNA-seq數據設計的,所以無法應用于整合多模態(tài)單細胞數據;另一類方法是基于相互最近鄰算法(MNNs)設計的,如:Seurat3.0和Scanorama;還有基于圖的方法BBKNN,基于聚類的方法Harmony,DC3等,在這些方法中,Seurat3.0,LIGER,DC3用于整合跨膜態(tài)的單細胞數據;Duren等人提出的方法用于整合scRNA-seq數據和scATAC-seq數據;SPOTLight針對于整合scRNA-seq和空間轉錄組數據提出;其他的方法只能用到scRNA-seq數據上。總的來說,盡管上述方法可以整合多種單細胞數據集,雖然有少數幾個已知的算法可以用于整合跨樣本、跨技術、跨模態(tài)的單細胞數據,但是還沒有任何方法能夠完成以上整合任務的同時,還可以整合成對匹配的多模態(tài)數據,以及用于大規(guī)模單細胞數據的整合。
發(fā)明內容
要解決的技術問題
為了避免現有技術的不足之處,本發(fā)明提出一種基于域對抗和變分推斷的單細胞數據整合方法。
技術方案
一種基于域對抗和變分推斷的單細胞數據整合方法,其特征在于步驟如下:
步驟1:需要整合的、從不同的單細胞測序數據集中收集到的標準化的基因表達矩陣輸入到模型中;所述的模型由一個特征提取器、一個非線性函數映射和一個域分類器組成;所述特征提取器部分使用KL正則化項使變分推斷的神經網絡學習到單細胞數據的低維特征,即隱變量Z;所述非線性函數映射部分用于將從特征提取器中學到的低維特征還原到原始的數據分布;所述域分類器通過梯度反轉層連接到神經網絡的瓶頸層,使得本模型在提取特征的同時混淆不同批次數據的來源以進行批次效應的去除;該模型將這三部分融合,共同構建了一個目標損失函數;
步驟2:通過最小化目標函數,模型輸出可用于下游分析的隱變量Z,即去除批次效應的單細胞低維嵌入特征,完成單細胞數據整合的任務。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于西北工業(yè)大學,未經西北工業(yè)大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業(yè)授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202210277775.8/2.html,轉載請聲明來源鉆瓜專利網。





