[發明專利]一種基于深度學習的DNA序列基元挖掘方法和系統在審
| 申請號: | 202110266696.2 | 申請日: | 2021-03-11 |
| 公開(公告)號: | CN112863598A | 公開(公告)日: | 2021-05-28 |
| 發明(設計)人: | 黃德雙;張欽虎 | 申請(專利權)人: | 同濟大學 |
| 主分類號: | G16B30/00 | 分類號: | G16B30/00;G16B50/00;G06N3/08;G06N3/04 |
| 代理公司: | 北京東方盛凡知識產權代理事務所(普通合伙) 11562 | 代理人: | 王穎 |
| 地址: | 200092 *** | 國省代碼: | 上海;31 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 深度 學習 dna 序列 挖掘 方法 系統 | ||
1.一種基于深度學習的DNA序列基元挖掘方法,其特征在于,包括以下步驟:
步驟1、采用重疊分割策略對獲取的每條DNA序列處理成一個數據包,采用k-mer編碼對數據包里的每一個示例進行編碼;
步驟2、對每個數據包進行特征學習構造混合深度神經網絡模型,對數據包中每個示例進行預測打分;
步驟3、對每個數據包中所有示例進行融合,將融合后的得分作為該數據包的最終預測值。
2.如權利要求1所述的基于深度學習的DNA序列基元挖掘方法,其特征在于,步驟1中所述重疊分割策略為:定義一個長度為c的滑動窗口,并通過步幅s將長度為l的DNA序列分成多個長度為c的示例,將一條DNA序列轉換為一個數據包,所述數據包中的示例數量為:(l-c)/s+1,其中s和c為預設超參數。
3.如權利要求2所述的基于深度學習的DNA序列基元挖掘方法,其特征在于,步驟1中采用k-mer編碼將所有的示例轉換為具有高階依賴關系的圖像矩陣,計算過程如下公式所示:
其中,i∈[1,c-k+1],j∈[1,4k],c表示示例的長度,k表示編碼的階數,xi表示來自{A,C,G,T}的任一字符,而Xi,j表示經過k-mer編碼后的一個矩陣,
其中,當k被設置為1時,k-mer編碼就等價于one-hot編碼。
4.如權利要求1至3任何一項所述的基于深度學習的DNA序列基元挖掘方法,其特征在于,步驟2中所述混合深度神經網絡模型包括:卷積神經網絡CNN和遞歸神經網絡RNN,其中,卷積神經網絡采用權重共享策略來捕獲DNA序列中的局部模式,而遞歸神經網絡使用其內部狀態來學習動態時間或序列模式;CNN被用于學習基元特征,而RNN被用于學習基元特征之間的長期依賴關系。
5.如權利要求1或4所述的基于深度學習的DNA序列基元挖掘方法,其特征在于,步驟2中利用該混合深度神經網絡模型對每個數據包中的所有示例進行預測打分,得到了每個示例的打分值p,其為示例包含結合位點的概率。
6.如權利要求5所述的基于深度學習的DNA序列基元挖掘方法,其特征在于,步驟3中采用Noisy-and方法融合,計算過程如下公式所示:
其中,pij表示第i個數據包中第j個示例的得分,ni表示第i個數據包中的示例數量,表示第i個數據包的平均得分。Noisy-and被設計為當示例的平均值超過預設閾值時激活一個數據包概率Pi,a為預設超參數,用于控制Noisy-and的斜率,bi表示每個數據包i的自適應軟閾值,σ(a(1-bi))和σ(-abi)用于歸一化Pi到[0,1],bi限定在[0,1]以及a0,σ指sigmoid函數。
通過Noisy-and方法將數據包中所有示例的預測值進行融合,以此來得到數據包“綁定”和“非綁定”的概率分布。
7.一種基于深度學習的DNA序列基元挖掘系統,其特征包括:
預處理裝置:用于采用重疊分割策略對獲取的每條DNA序列處理成一個數據包,采用k-mer編碼對數據包里的每一個示例進行編碼;
打分裝置:用于對每個數據包進行特征學習,以構造混合深度神經網絡模型,對數據包中每個示例進行預測打分;
融合裝置:用于對每個數據包中所有示例進行融合,將融合后的得分作為該數據包的最終預測值。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于同濟大學,未經同濟大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110266696.2/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種新型保溫板粘接切割機
- 下一篇:一種殼體冷卻供氣系統及方法





