[發(fā)明專利]一種基于動態(tài)卷積網(wǎng)絡(luò)的微生物基因序列分類模型的方法在審
| 申請?zhí)枺?/td> | 201710609781.8 | 申請日: | 2017-07-25 |
| 公開(公告)號: | CN108009402A | 公開(公告)日: | 2018-05-08 |
| 發(fā)明(設(shè)計)人: | 段大高;趙振東;韓忠明 | 申請(專利權(quán))人: | 北京工商大學(xué) |
| 主分類號: | G06F19/24 | 分類號: | G06F19/24 |
| 代理公司: | 北京慧泉知識產(chǎn)權(quán)代理有限公司 11232 | 代理人: | 李娜 |
| 地址: | 100048*** | 國省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 動態(tài) 卷積 網(wǎng)絡(luò) 微生物 基因 序列 分類 模型 方法 | ||
本發(fā)明一種基于動態(tài)卷積網(wǎng)絡(luò)的微生物基因序列分類模型的方法:步驟一:獲取已有分類結(jié)果的微生物基因序列數(shù)據(jù);步驟二:數(shù)據(jù)預(yù)處理;步驟三:構(gòu)建動態(tài)卷積網(wǎng)絡(luò)結(jié)構(gòu)框架;步驟四:把準備好的數(shù)據(jù)輸入步驟三建立的動態(tài)卷積網(wǎng)絡(luò),用反向傳播,隨機梯度下降法迭代100次,訓(xùn)練動態(tài)卷積網(wǎng)絡(luò);以多分類交叉熵為代價函數(shù),最終得到分類算法模型;步驟五:將需要分類的分詞序列輸入到步驟四已訓(xùn)練好的動態(tài)卷積網(wǎng)絡(luò)模型,得到分類結(jié)果。本發(fā)明方法不用人工處理數(shù)據(jù)和抽取特征,模型自動抽取抽象特征完成分類任務(wù),算法效率和準確度高,可有效應(yīng)用于生物信息分析與處理。
技術(shù)領(lǐng)域
本發(fā)明涉及一種基于動態(tài)卷積網(wǎng)絡(luò)的微生物基因序列分類模型的方法,它應(yīng)用于微生物基因序列分類識別,屬于數(shù)據(jù)挖掘與生物信息技術(shù)領(lǐng)域。
背景技術(shù)
DNA序列數(shù)據(jù)是生物信息學(xué)的主要研究對象之一。通過分析DNA序列,可以了解序列之間的潛在結(jié)構(gòu)和功能關(guān)系。DNA序列的數(shù)據(jù)量呈指數(shù)增長,如果可以用現(xiàn)代計算機分析這些巨大的數(shù)據(jù)來幫助我們了解DNA,這是非常好的。DNA序列分類遵循具有相似結(jié)構(gòu)的序列也具有相似功能的原理。傳統(tǒng)上通過使用序列比對方法(如BLAST和FASTA)建立序列相似性。這個選擇是有兩個主要假設(shè):(1)功能要素共享共同序列特征,(2)功能元素的相對順序在不同的間接條件之間是保守的。雖然這些假設(shè)在廣泛的情況下是有效的,但它們并不普遍。無論如何,盡管最近的這些問題,嚴重限制對齊方法應(yīng)用的關(guān)鍵問題仍然是他們計算時間的復(fù)雜性。因此,最近開發(fā)的無對齊方法已經(jīng)成為研究基因組分析的有效方法。在無對齊方法中把序列考慮成K-mer集合,然后通過分析每個序列中K-mer分布特性,尋找到有效特征然后用傳統(tǒng)的分類方法將序列分類。而基因序列分類中,特征選取和分析常常是費時又費力,而且效果還不確定。
目前,基于深度學(xué)習(xí)的模型算法在圖像識別和自然語言處理等領(lǐng)域中取得了很好的效果,而且越來越受到重視。本方法主要基于深度學(xué)習(xí)中動態(tài)卷積網(wǎng)絡(luò)實現(xiàn)基于序列的分類。由于深度學(xué)習(xí)本身會提取高水平抽象特征,從而省去了傳統(tǒng)機器學(xué)習(xí)算法中的特征工程過程,從而極大的提升了問題解決的效率,而且準確度已經(jīng)達到非常高的水平。
發(fā)明內(nèi)容
1、目的:
本發(fā)明目的是提供一種基于動態(tài)卷積網(wǎng)絡(luò)的微生物基因序列分類模型的方法,可以有效的分類微生物基因序列,從而提高微生物分析效率和水平。
本發(fā)明的原理是:首先進行基因序列處理,對某個微生物的基因序列文本進行分詞,獲取分詞結(jié)果并作為算法模型輸入,算法模型會根據(jù)分詞結(jié)果,首先將序列分詞通過詞嵌入技術(shù)將基因序列轉(zhuǎn)化為向量矩陣,在模型的卷積層,通過一維卷積核對詞嵌入矩陣進行卷積,第一層卷積設(shè)為12個通道,卷積層后數(shù)據(jù)進入動態(tài)池化層,動態(tài)池化層會根據(jù)輸入序列的長度和當前的卷積層數(shù)確定池化域的大小,以最大化保留序列的有效信息。最后在折疊層,把矩陣降維,在全連接層把動態(tài)卷積網(wǎng)絡(luò)提取序列抽象特征進行分類。
2、技術(shù)方案:本發(fā)明提供的技術(shù)方案如下:
本發(fā)明是一種基于動態(tài)卷積網(wǎng)絡(luò)的微生物基因序列分類模型的方法,如圖2所示,該方法具體步驟如下:
步驟一:獲取已有分類結(jié)果的微生物基因序列數(shù)據(jù)。
步驟二:數(shù)據(jù)預(yù)處理:
1)刪除基因序列中非法字符;
2)將不同的分類類別屬性進行one-hot編碼;
3)把基因序列按8個字符切分成詞序列;
4)把整理好的序列文本集按對應(yīng)的分類標簽分成門(phylum),綱(class),目(order)科(family),分成四個分類級別數(shù)據(jù)
步驟三:構(gòu)建動態(tài)卷積網(wǎng)絡(luò)結(jié)構(gòu)框架,如附圖(1);
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于北京工商大學(xué),未經(jīng)北京工商大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710609781.8/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 上一篇:一種具有提醒與安全防護的扶梯
- 下一篇:一種濃海水資源化利用的方法
- 同類專利
- 專利分類
G06F 電數(shù)字數(shù)據(jù)處理
G06F19-00 專門適用于特定應(yīng)用的數(shù)字計算或數(shù)據(jù)處理的設(shè)備或方法
G06F19-10 .生物信息學(xué),即計算分子生物學(xué)中的遺傳或蛋白質(zhì)相關(guān)的數(shù)據(jù)處理方法或系統(tǒng)
G06F19-12 ..用于系統(tǒng)生物學(xué)的建模或仿真,例如:概率模型或動態(tài)模型,遺傳基因管理網(wǎng)絡(luò),蛋白質(zhì)交互作用網(wǎng)絡(luò)或新陳代謝作用網(wǎng)絡(luò)
G06F19-14 ..用于發(fā)展或進化的,例如:進化的保存區(qū)域決定或進化樹結(jié)構(gòu)
G06F19-16 ..用于分子結(jié)構(gòu)的,例如:結(jié)構(gòu)排序,結(jié)構(gòu)或功能關(guān)系,蛋白質(zhì)折疊,結(jié)構(gòu)域拓撲,用結(jié)構(gòu)數(shù)據(jù)的藥靶,涉及二維或三維結(jié)構(gòu)的
G06F19-18 ..用于功能性基因組學(xué)或蛋白質(zhì)組學(xué)的,例如:基因型–表型關(guān)聯(lián),不均衡連接,種群遺傳學(xué),結(jié)合位置鑒定,變異發(fā)生,基因型或染色體組的注釋,蛋白質(zhì)相互作用或蛋白質(zhì)核酸的相互作用
- 卷積運算處理方法及相關(guān)產(chǎn)品
- 一種卷積神經(jīng)網(wǎng)絡(luò)的計算方法及系統(tǒng)
- 卷積運算方法及系統(tǒng)
- 卷積運算方法、裝置及系統(tǒng)
- 深度神經(jīng)網(wǎng)絡(luò)裁剪方法、裝置及電子設(shè)備
- 基于卷積神經(jīng)網(wǎng)絡(luò)的圖像處理方法和圖像處理裝置
- 卷積神經(jīng)網(wǎng)絡(luò)及基于卷積神經(jīng)網(wǎng)絡(luò)的圖像處理方法
- 一種圖像處理方法、裝置以及計算機存儲介質(zhì)
- 用于卷積神經(jīng)網(wǎng)絡(luò)的卷積運算裝置
- 基于FPGA實現(xiàn)圖像識別的方法、裝置、設(shè)備及存儲介質(zhì)
- 網(wǎng)絡(luò)和網(wǎng)絡(luò)終端
- 網(wǎng)絡(luò)DNA
- 網(wǎng)絡(luò)地址自適應(yīng)系統(tǒng)和方法及應(yīng)用系統(tǒng)和方法
- 網(wǎng)絡(luò)系統(tǒng)及網(wǎng)絡(luò)至網(wǎng)絡(luò)橋接器
- 一種電力線網(wǎng)絡(luò)中根節(jié)點網(wǎng)絡(luò)協(xié)調(diào)方法和系統(tǒng)
- 一種多網(wǎng)絡(luò)定位方法、存儲介質(zhì)及移動終端
- 網(wǎng)絡(luò)裝置、網(wǎng)絡(luò)系統(tǒng)、網(wǎng)絡(luò)方法以及網(wǎng)絡(luò)程序
- 從重復(fù)網(wǎng)絡(luò)地址自動恢復(fù)的方法、網(wǎng)絡(luò)設(shè)備及其存儲介質(zhì)
- 神經(jīng)網(wǎng)絡(luò)的訓(xùn)練方法、裝置及存儲介質(zhì)
- 網(wǎng)絡(luò)管理方法和裝置





