[發明專利]一種預測DNA-蛋白質結合的雙向LSTM和CNN模型在審
| 申請號: | 201811244350.7 | 申請日: | 2018-10-24 |
| 公開(公告)號: | CN109559781A | 公開(公告)日: | 2019-04-02 |
| 發明(設計)人: | 張永清;曾圓麟;盧榮釗;何嘉;周激流 | 申請(專利權)人: | 成都信息工程大學 |
| 主分類號: | G16B30/00 | 分類號: | G16B30/00;G06N3/04 |
| 代理公司: | 北京華仲龍騰專利代理事務所(普通合伙) 11548 | 代理人: | 李靜 |
| 地址: | 610000 四川省成都*** | 國省代碼: | 四川;51 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 蛋白質結合 輸入序列 卷積核 輸出層 輸入層 池化 卷積 矩陣 二進制矩陣 非線性轉換 編碼解釋 歷史信息 掃描輸入 輸出信號 特征信息 信息關聯 序列模式 隱藏狀態 連接層 潛在的 熱編碼 最大化 預測 模體 傳遞 傳播 發現 | ||
1.一種預測DNA-蛋白質結合的雙向LSTM和CNN模型,其特征在于,其包括輸入層、BLSTM層、卷積層、最大池化層、全連接層和輸出層,其中,
第一層為輸入層,其使用獨熱編碼將每個輸入序列表示為4行二進制矩陣,每個序列的長度為101個堿基對;
第二層為BLSTM層,其中前一層中的每個LSTM模型將從輸入序列中接收DNA上感興趣的信息,對從過去歷史信息傳遞到隱藏狀態的貢獻進行編碼解釋;然后,該解釋信息將傳播到下一個BLSTM模塊中,包括其前一個和下一個LSTM塊;一直到最后一個核苷酸,LSTM模塊將做出最終確定;
第三層為卷積層,其由不同卷積核組成,其中具有線性整流函數ReLU作為激活函數,每個卷積核掃描輸入的矩陣用于模體發現,不同強度的信息關聯潛在的序列模式;
第四層為最大池化層,通過減小輸入的尺寸來提高性能,減小過擬合,為后續層保留重要信息。
第五層為全連接層,用于最大化每個卷積核的輸出信號使其成一個完整的序列,使用ReLU作為激活單元。
最后一層為輸出層,其使用sigmoid激活執行非線性轉換,并生成0到1之間的值,以表示每個探針的DNA-蛋白質結合的概率。
2.如權利要求1所述的模型,其特征在于,所述模型對應的深度學習網絡的訓練步驟具體包括:
步驟一,從ENCODE等公共數據庫中獲取DNA-蛋白質結合的實驗數據;
步驟二,利用預先設置有初始參數的深度學習網絡對所述DNA-蛋白質結合樣本進行識別分類;根據所述深度學習網絡輸出結果與所述DNA-蛋白質結合的特征信息之間的差異逐層反傳至所述深度學習網絡,訓練所述深度學習網絡的參數;
步驟三,所述利用預先設置有初始參數的深度學習網絡對所述DNA-蛋白質結合進行識別,其具體為:利用預先設置有初始參數的BLSTM算法,學習基因序列之間的前后依賴關系信息,通過CNN網絡的卷積層,獲取DNA-蛋白質結合位點的序列特征信息,最大池化層提取序列特征中的重要取得更好的預測效果,再通過全連接層的操作,得到所述DNA-蛋白質結合識別的概率;根據所述深度學習網絡輸出結果與DNA-蛋白質結合信息之間的差異逐層反傳至所述深度學習網絡,訓練深度學習網絡的參數。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于成都信息工程大學,未經成都信息工程大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201811244350.7/1.html,轉載請聲明來源鉆瓜專利網。
- 參與蛋白質-蛋白質相互作用的蛋白質亞群的分離方法
- 高效選出特異性地結合于配體的蛋白質的方法
- 檢測生物學樣品中的物質的方法
- 使用磁珠的微流體免疫試驗的方法和系統
- 與膜結合蛋白質結合的橡膠顆粒的制造方法,充氣輪胎的制造方法和橡膠制品的制造方法
- 蛋白質分解誘導標簽及其用途
- 肝型脂肪酸結合蛋白質制劑、對其評價的方法、抑制使用其的測定中的肝型脂肪酸結合蛋白質引起的測定值的變動幅度的方法、肝型脂肪酸結合蛋白質、其的制造方法、編碼其的DNA、由該DNA轉化得到的細胞、制作肝型脂肪酸結合蛋白質的校準曲線的方法及對該蛋白質進行定量的方法
- 用于蛋白質鑒定的方法和系統
- 蛋白質與藥物結合自由能的計算方法、系統、設備及介質
- 蛋白質復合物深度多序列比對方法





