[發(fā)明專利]甲基化測序數(shù)據(jù)的處理方法和裝置有效
| 申請?zhí)枺?/td> | 202110232548.9 | 申請日: | 2021-03-02 |
| 公開(公告)號: | CN112599194B | 公開(公告)日: | 2021-06-22 |
| 發(fā)明(設(shè)計(jì))人: | 樓峰;周濤;張萌萌;郭璟;曹善柏 | 申請(專利權(quán))人: | 北京橡鑫生物科技有限公司;天津橡鑫生物科技有限公司;北京橡鑫醫(yī)學(xué)科技有限公司 |
| 主分類號: | G16B20/30 | 分類號: | G16B20/30 |
| 代理公司: | 北京康信知識產(chǎn)權(quán)代理有限責(zé)任公司 11240 | 代理人: | 路秀麗 |
| 地址: | 100080 北京市通州區(qū)經(jīng)*** | 國省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 甲基化 序數(shù) 處理 方法 裝置 | ||
本發(fā)明提供了一種甲基化測序數(shù)據(jù)的處理方法和裝置。該處理方法包括:通過變分自動編碼的方法建立甲基化測序數(shù)據(jù)的預(yù)測模型;將待測樣本的甲基化測序數(shù)據(jù)輸入預(yù)測模型;輸出預(yù)測結(jié)果。通過變分自動編碼的方法建立甲基化測序數(shù)據(jù)的預(yù)測模型,利用變分自動編碼器的優(yōu)勢,將甲基化測序的原始數(shù)據(jù)轉(zhuǎn)換成另一組數(shù)據(jù),轉(zhuǎn)換后的這組數(shù)據(jù)更符合某種特征分布規(guī)律,進(jìn)而能更準(zhǔn)確地建立與表型之間的相關(guān)性,進(jìn)而得到的預(yù)測模型預(yù)測結(jié)果也更準(zhǔn)確。
技術(shù)領(lǐng)域
本發(fā)明涉及生物信息領(lǐng)域,具體而言,涉及一種甲基化測序數(shù)據(jù)的處理方法和裝置。
背景技術(shù)
DNA甲基化(DNAm)是基因表達(dá)程序的表觀遺傳調(diào)控因子,可因環(huán)境暴露,衰老和發(fā)病機(jī)理改變而改變。通常情況下全基因組甲基化測序采用基因芯片技術(shù)進(jìn)行,計(jì)算每個(gè)CpG靶標(biāo)的甲基化比例,以beta值表示。
傳統(tǒng)方法將DNAm變化與表型數(shù)據(jù)相關(guān)聯(lián),進(jìn)行表觀遺傳學(xué)的研究。盡管DNAm數(shù)據(jù)具有與基因型數(shù)據(jù)相似的功能,由于DNAm beta值的連續(xù)性、高維度等特性,在使用DNAm數(shù)據(jù)進(jìn)行分析時(shí)面臨多重假設(shè)檢驗(yàn)和多重共線性等困擾。為了應(yīng)對這些問題,許多下游EWAS(Epigenome-Wide Association Study,表觀基因組關(guān)聯(lián)分析)分析都集中于將數(shù)據(jù)特征維度縮減為與結(jié)果相關(guān)聯(lián)的集合,通過降維和特征選擇來限制特征的數(shù)量,使分析變得更易于計(jì)算,并且減輕多重比較的問題。
以往機(jī)器學(xué)習(xí)方法應(yīng)用甲基化原始數(shù)據(jù)分析甲基化狀態(tài)、進(jìn)行分類和回歸分析。但現(xiàn)有的這些方法仍存在結(jié)果準(zhǔn)確性低的問題。
發(fā)明內(nèi)容
本發(fā)明的主要目的在于提供一種甲基化測序數(shù)據(jù)的處理方法和裝置,以解決現(xiàn)有技術(shù)中處理結(jié)果準(zhǔn)確性相對較低的問題。
為了實(shí)現(xiàn)上述目的,根據(jù)本發(fā)明的一個(gè)方面,提供了一種甲基化測序數(shù)據(jù)的處理方法,該處理方法包括:通過變分自動編碼的方法建立甲基化測序數(shù)據(jù)的預(yù)測模型;將待測樣本的甲基化測序數(shù)據(jù)輸入預(yù)測模型;輸出預(yù)測結(jié)果。
進(jìn)一步地,通過變分自動編碼的方法建立甲基化測序數(shù)據(jù)的預(yù)測模型包括:采用變分自動編碼器將已知數(shù)據(jù)庫中的甲基化測序數(shù)據(jù)轉(zhuǎn)換為擬真數(shù)據(jù);利用擬真數(shù)據(jù)進(jìn)行模型預(yù)訓(xùn)練,得到預(yù)訓(xùn)練模型;在模型預(yù)訓(xùn)練過程中對預(yù)訓(xùn)練模型的超參數(shù)進(jìn)行自動選擇,篩選出最優(yōu)模型,作為預(yù)測模型。
進(jìn)一步地,在模型預(yù)訓(xùn)練過程中還包括修改預(yù)訓(xùn)練模型的結(jié)構(gòu),選擇性載入預(yù)訓(xùn)練模型的權(quán)重后,再對預(yù)訓(xùn)練模型重新進(jìn)行模型預(yù)訓(xùn)練。
進(jìn)一步地,采用微調(diào)編碼器對預(yù)訓(xùn)練模型進(jìn)行結(jié)構(gòu)調(diào)整,選擇性載入預(yù)訓(xùn)練模型的權(quán)重;在采用微調(diào)編碼器對對預(yù)訓(xùn)練模型進(jìn)行結(jié)構(gòu)調(diào)整,選擇性載入預(yù)訓(xùn)練模型的權(quán)重之后,處理方法還包括對超參數(shù)進(jìn)行自動選擇,從而篩選出最優(yōu)模型作為預(yù)測模型。
進(jìn)一步地,已知數(shù)據(jù)庫為TCGA數(shù)據(jù)庫,通過變分自動編碼的方法建立甲基化測序數(shù)據(jù)的預(yù)測模型包括:從TCGA數(shù)據(jù)庫中選擇目的表型的甲基化測序數(shù)據(jù),并拆分為訓(xùn)練集和驗(yàn)證集;利用變分自動編碼器將訓(xùn)練集和驗(yàn)證集中的甲基化測序數(shù)據(jù)轉(zhuǎn)換為擬真數(shù)據(jù)集;并利用訓(xùn)練集的擬真數(shù)據(jù)集進(jìn)行模型預(yù)訓(xùn)練,優(yōu)選預(yù)訓(xùn)練過程中采用超參數(shù)自動選擇,得到預(yù)訓(xùn)練模型;利用驗(yàn)證集的擬真數(shù)據(jù)對預(yù)訓(xùn)練模型進(jìn)行驗(yàn)證,并采用微調(diào)編碼器對預(yù)訓(xùn)練模型進(jìn)行調(diào)整,調(diào)整包括對預(yù)訓(xùn)練模型執(zhí)行自動超參數(shù)掃描,自動調(diào)整模型的超參數(shù)選擇,從而選擇最優(yōu)模型作為預(yù)測模型。
在本申請的第二個(gè)方面,提供了一種甲基化測序數(shù)據(jù)的處理裝置,該處理裝置包括:模型建立模塊,用于通過變分自動編碼的裝置建立甲基化測序數(shù)據(jù)的預(yù)測模型;數(shù)據(jù)輸入模塊,用于將待測樣本的甲基化測序數(shù)據(jù)輸入預(yù)測模型;結(jié)果輸出模塊,用于輸出預(yù)測結(jié)果。
進(jìn)一步地,模型建立模塊包括:數(shù)據(jù)轉(zhuǎn)換模塊,數(shù)據(jù)轉(zhuǎn)換模塊為變分自動編碼器,用于將已知數(shù)據(jù)庫中的甲基化測序數(shù)據(jù)轉(zhuǎn)換為擬真數(shù)據(jù);訓(xùn)練模塊,用于利用擬真數(shù)據(jù)進(jìn)行模型預(yù)訓(xùn)練,得到預(yù)訓(xùn)練模型;調(diào)整模塊,調(diào)整模塊包括自動超參數(shù)掃描模塊,用于在模型預(yù)訓(xùn)練過程中對預(yù)訓(xùn)練模型的超參數(shù)進(jìn)行自動選擇,篩選出最優(yōu)模型,作為預(yù)測模型。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于北京橡鑫生物科技有限公司;天津橡鑫生物科技有限公司;北京橡鑫醫(yī)學(xué)科技有限公司,未經(jīng)北京橡鑫生物科技有限公司;天津橡鑫生物科技有限公司;北京橡鑫醫(yī)學(xué)科技有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110232548.9/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 序數(shù)鐘表
- 一種時(shí)序數(shù)據(jù)的處理方法及裝置
- 一種FPGA程序數(shù)據(jù)的加載方法及裝置
- 一種時(shí)序數(shù)據(jù)流分割方法、裝置及其存儲介質(zhì)
- 一種工業(yè)時(shí)序數(shù)據(jù)的訪問方法及系統(tǒng)
- 一種時(shí)序數(shù)據(jù)的平滑處理方法和裝置
- 時(shí)序數(shù)據(jù)多層次語義裁剪方法、裝置、電子設(shè)備及介質(zhì)
- 一種數(shù)據(jù)存儲方法、裝置、服務(wù)器及存儲介質(zhì)
- 一種時(shí)序數(shù)據(jù)異常檢測方法、裝置、設(shè)備及存儲介質(zhì)
- 一種基因測序數(shù)據(jù)排序方法、集成電路及排序設(shè)備





