[發(fā)明專利]一種基于深度學(xué)習(xí)的DNA序列基元挖掘方法和系統(tǒng)在審
| 申請(qǐng)?zhí)枺?/td> | 202110266696.2 | 申請(qǐng)日: | 2021-03-11 |
| 公開(公告)號(hào): | CN112863598A | 公開(公告)日: | 2021-05-28 |
| 發(fā)明(設(shè)計(jì))人: | 黃德雙;張欽虎 | 申請(qǐng)(專利權(quán))人: | 同濟(jì)大學(xué) |
| 主分類號(hào): | G16B30/00 | 分類號(hào): | G16B30/00;G16B50/00;G06N3/08;G06N3/04 |
| 代理公司: | 北京東方盛凡知識(shí)產(chǎn)權(quán)代理事務(wù)所(普通合伙) 11562 | 代理人: | 王穎 |
| 地址: | 200092 *** | 國(guó)省代碼: | 上海;31 |
| 權(quán)利要求書: | 查看更多 | 說(shuō)明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 深度 學(xué)習(xí) dna 序列 挖掘 方法 系統(tǒng) | ||
本發(fā)明公開一種基于深度學(xué)習(xí)的DNA序列基元挖掘方法和系統(tǒng),其包括:步驟1、對(duì)獲取的DNA序列進(jìn)行預(yù)處理,采用重疊分割策略將每條DNA序列處理成一個(gè)數(shù)據(jù)包,采用k?mer編碼對(duì)數(shù)據(jù)包里的每一個(gè)示例進(jìn)行編碼;步驟2、對(duì)每個(gè)數(shù)據(jù)包進(jìn)行特征學(xué)習(xí),以構(gòu)造混合深度神經(jīng)網(wǎng)絡(luò)模型,對(duì)數(shù)據(jù)包中每個(gè)示例進(jìn)行預(yù)測(cè)打分;步驟3、對(duì)每個(gè)數(shù)據(jù)包中所有示例進(jìn)行融合,將融合后的得分作為該數(shù)據(jù)包的最終預(yù)測(cè)值。采用本發(fā)明的技方案,避免忽略基因組序列的弱監(jiān)督信息、序列特征之間的長(zhǎng)期依賴關(guān)系等。
技術(shù)領(lǐng)域
本發(fā)明屬于機(jī)器學(xué)習(xí)技術(shù)領(lǐng)域,尤其涉及一種基于深度學(xué)習(xí)的DNA序列基元挖掘方法和系統(tǒng)。
背景技術(shù)
隨著技術(shù)的不斷發(fā)展,越來(lái)越多的研究人員使用高通量實(shí)驗(yàn)方法來(lái)對(duì)生物體內(nèi)基因組序列中可能與蛋白質(zhì)發(fā)生綁定的位點(diǎn)進(jìn)行深入研究。目前比較成熟的用于研究轉(zhuǎn)錄因子在體內(nèi)綁定作用的實(shí)驗(yàn)方法有以下幾種:ChIP-chip、ChIP-seq以及最近提出的ChIP-exo。研究人員使用上述實(shí)驗(yàn)方法在基因組內(nèi)對(duì)已有的數(shù)百萬(wàn)條序列進(jìn)行精確定位,從而獲得基因組內(nèi)能夠與蛋白質(zhì)發(fā)生綁定作用的短序列區(qū)域的相關(guān)數(shù)據(jù)。通過(guò)上述實(shí)驗(yàn)數(shù)據(jù),研究人員可以在全基因組范圍內(nèi)對(duì)多種蛋白質(zhì)在不同組織細(xì)胞中的綁定特性進(jìn)行深入研究,從而幫助人們進(jìn)一步探索生物體內(nèi)不同蛋白質(zhì)間的相互作用特性。
隨著高通量測(cè)序技術(shù)的快速發(fā)展,已經(jīng)提出了多種實(shí)驗(yàn)方法來(lái)提取體內(nèi)(in-vivo)和體外(in-vitro)的綁定區(qū)域。特別地,ChIP-seq和高通量測(cè)序大大增加了體內(nèi)可用數(shù)據(jù)量,這將有利于體內(nèi)蛋白質(zhì)與基因組序列綁定的研究。另一方面,蛋白質(zhì)結(jié)合微陣列(PBM)可以測(cè)量轉(zhuǎn)錄因子與給定長(zhǎng)度k的所有可能的DNA序列變體的體外結(jié)合,這為直接開發(fā)綁定位點(diǎn)預(yù)測(cè)模型提供了極好的信息來(lái)源。隨后就陸續(xù)出現(xiàn)了各種處理高通量數(shù)據(jù)的算法,例如針對(duì)ChIP-seq數(shù)據(jù)的DREME、BioProspector和motifRG等方法;針對(duì)PBM數(shù)據(jù)的Herdclustering和RankMotif++;針對(duì)HT-SELEX數(shù)據(jù)的Toivonen和HTSIBIS等方法,以及可以綜合統(tǒng)一處理這些數(shù)據(jù)的Dimont算法等。然而,采用傳統(tǒng)的方法處理如此大規(guī)模的數(shù)據(jù)會(huì)受到相當(dāng)大的限制,例如,容錯(cuò)性能低、對(duì)噪聲敏感、泛化能力差,時(shí)間復(fù)雜度高。隨著計(jì)算機(jī)理論以及技術(shù)的不斷發(fā)展,深度學(xué)習(xí)已經(jīng)被成功地應(yīng)用于各種大數(shù)據(jù)研究領(lǐng)域中。研究者開始嘗試使用深度神經(jīng)網(wǎng)絡(luò)等復(fù)雜機(jī)器學(xué)習(xí)模型來(lái)挖掘綁定位點(diǎn)基元信息,以及分析蛋白質(zhì)綁定與基因變異之間的關(guān)聯(lián)關(guān)系。DeepBind是首個(gè)將深度卷積神經(jīng)網(wǎng)絡(luò)應(yīng)用于綁定位點(diǎn)預(yù)測(cè)的基元挖掘算法,從集成現(xiàn)有簡(jiǎn)單綁定模型的角度對(duì)傳統(tǒng)的深度學(xué)習(xí)方法進(jìn)行了調(diào)整,設(shè)計(jì)了一種基于深度卷積神經(jīng)網(wǎng)絡(luò)的轉(zhuǎn)錄因子綁定模型。用戶可以將多種高通量技術(shù)產(chǎn)生的高通量數(shù)據(jù)(例如:ChIp-seq,PBM,HT-SELEX)作為原始數(shù)據(jù)輸入到DeepBind模型中,然后DeepBind可以運(yùn)用自己制定的規(guī)則綜合考慮多種數(shù)據(jù),并從中學(xué)習(xí)出轉(zhuǎn)錄因子綁定偏好的模型參數(shù)。
但是現(xiàn)有的基元挖掘方法主要是基于傳統(tǒng)機(jī)器學(xué)習(xí)和深度學(xué)習(xí)的方法,越來(lái)越多的證據(jù)表明基于傳統(tǒng)機(jī)器學(xué)習(xí)的方法無(wú)法處理大規(guī)模測(cè)序數(shù)據(jù),泛化能力差,且十分耗時(shí),而基于深度學(xué)習(xí)的方法能很好地緩解或克服傳統(tǒng)方法的不足。但是,基于深度學(xué)習(xí)的方法還存在以下問(wèn)題:1)遵循完全監(jiān)督的學(xué)習(xí)框架,而忽略了基因組序列的弱監(jiān)督信息,即一段DNA序列可能包含多個(gè)轉(zhuǎn)錄因子結(jié)合位點(diǎn);2)使用獨(dú)熱(one-hot)編碼,而該編碼方式忽略了核苷酸之間的依賴性;3)僅采用CNN來(lái)學(xué)習(xí)DNA序列的空間信息,而忽略了序列特征之間的長(zhǎng)期依賴關(guān)系。
發(fā)明內(nèi)容
本發(fā)明要解決的技術(shù)問(wèn)題是,提供一種基于深度學(xué)習(xí)的DNA序列基元挖掘方法和系統(tǒng)。
為實(shí)現(xiàn)上述目的,本發(fā)明采用如下的技術(shù)方案:
一種基于深度學(xué)習(xí)的DNA序列基元挖掘方法,包括以下步驟:
步驟1、采用重疊分割策略對(duì)獲取的每條DNA序列處理成一個(gè)數(shù)據(jù)包,采用k-met編碼對(duì)數(shù)據(jù)包里的每一個(gè)示例進(jìn)行編碼;
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于同濟(jì)大學(xué),未經(jīng)同濟(jì)大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110266696.2/2.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專利網(wǎng)。
- 根據(jù)用戶學(xué)習(xí)效果動(dòng)態(tài)變化下載學(xué)習(xí)數(shù)據(jù)的系統(tǒng)及方法
- 用于智能個(gè)人化學(xué)習(xí)服務(wù)的方法
- 漸進(jìn)式學(xué)習(xí)管理方法及漸進(jìn)式學(xué)習(xí)系統(tǒng)
- 輔助學(xué)習(xí)的方法及裝置
- 基于人工智能的課程推薦方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)
- 基于強(qiáng)化學(xué)習(xí)的自適應(yīng)移動(dòng)學(xué)習(xí)路徑生成方法
- 一種線上視頻學(xué)習(xí)系統(tǒng)
- 一種基于校園大數(shù)據(jù)的自適應(yīng)學(xué)習(xí)方法、裝置及設(shè)備
- 一種學(xué)習(xí)方案推薦方法、裝置、設(shè)備和存儲(chǔ)介質(zhì)
- 游戲?qū)W習(xí)效果評(píng)測(cè)方法及系統(tǒng)
- 核酸外切酶保護(hù)DNA探針雜交DNA微陣列芯片檢測(cè)DNA結(jié)合蛋白
- DNA的合成方法
- 一種基因組DNA提取方法
- 用于產(chǎn)生由單分子DNA形成的環(huán)狀DNA的方法
- 在DNA分子的環(huán)化中僅選擇由單分子形成的環(huán)化DNA的方法
- 基于靶標(biāo)蛋白誘導(dǎo)DNA酶循環(huán)生成的均相免疫分析方法
- 一種測(cè)序用DNA文庫(kù)
- 一種無(wú)立足點(diǎn)和分支遷移域的DNA鏈置換新方法
- 一種DNA功能化納米金探針及其檢測(cè)端粒酶的應(yīng)用
- 一種不產(chǎn)生DNA雙鏈斷裂的實(shí)現(xiàn)植物基因替換的方法





