[發明專利]一種預測DNA-蛋白質結合的雙向LSTM和CNN模型在審
| 申請號: | 201811244350.7 | 申請日: | 2018-10-24 |
| 公開(公告)號: | CN109559781A | 公開(公告)日: | 2019-04-02 |
| 發明(設計)人: | 張永清;曾圓麟;盧榮釗;何嘉;周激流 | 申請(專利權)人: | 成都信息工程大學 |
| 主分類號: | G16B30/00 | 分類號: | G16B30/00;G06N3/04 |
| 代理公司: | 北京華仲龍騰專利代理事務所(普通合伙) 11548 | 代理人: | 李靜 |
| 地址: | 610000 四川省成都*** | 國省代碼: | 四川;51 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 蛋白質結合 輸入序列 卷積核 輸出層 輸入層 池化 卷積 矩陣 二進制矩陣 非線性轉換 編碼解釋 歷史信息 掃描輸入 輸出信號 特征信息 信息關聯 序列模式 隱藏狀態 連接層 潛在的 熱編碼 最大化 預測 模體 傳遞 傳播 發現 | ||
本發明提出了一種預測DNA?蛋白質結合的雙向LSTM和CNN模型,其中包括輸入層、BLSTM層、卷積層、最大池化層、全連接層和輸出層。輸入層使用獨熱編碼將每個輸入序列表示為4行二進制矩陣;在BLSTM層中,前一層中的每個LSTM模型將從輸入序列中接收DNA上感興趣的信息,對從過去歷史信息傳遞到隱藏狀態的貢獻進行編碼解釋;然后將其傳播到下一個BLSTM模塊中;卷積層中每個卷積核掃描輸入的矩陣用于模體發現,不同強度的信息關聯潛在的序列模式;最大池化層用于最大化每個卷積核的輸出信號使其成一個完整的序列;輸出層執行非線性轉換以確定DNA?蛋白質結合的特征信息。
技術領域
本發明涉及深度學習和生物信息技術領域,尤其涉及一種預測DNA-蛋白質結合的雙向LSTM和CNN模型。
背景技術
準確地建立轉錄因子(Transcription factors,TF)序列的特定模型是理解基因組功能和進化的基本問題。特別是,轉錄因子的結合特性對下游基因表達將產生決定性的作用。隨著高通量測序技術的發展,ENCODE計劃提供了98個細胞全基因組范圍的187個TF的結合特異性。根據轉錄因子結合位點,可以定義一個序列的二分類問題,即根據TF是否結合,將其分別劃分為正樣本和負樣本。通過建立序列的二分類模型,可以預測新的樣本的綁定結合位點。
近年來,與其他機器學習方法相比,深度學習技術具有更高的鑒別能力,并已廣泛應用于生物信息學,如蛋白質結構預測,基因表達調控,蛋白質分類。卷積神經網絡(CNN)是一個眾所周知的深度學習框架。CNN的組件包括卷積,池化和全連接層。對于分類器或回歸任務,通常使用softmax回歸,因為它可以產生與輸出相對應的良好形成的概率分布。卷積神經網絡(CNN)成功預測了TF結合位點。通過編碼訓練的空間不變性,CNN可以很好地推廣。圖形處理單元(GPU)上的快速卷積允許CNN在大規模數據集上進行訓練。
然而,現有技術方案存在以下不足:神經網絡的框架將極大地影響模型的系統性能,同時在捕獲探針序列的位置和動態方面表現更差,以便從DNA序列預測TF結合位點。因此,現有計算方法在預測DNA-蛋白質結合的準確性方面還有待提升。
發明內容
針對現有技術之不足,研究的重點是發現轉錄因子結合位點(TFBS),TFBS的任務可視為二元序列分類問題。該問題可以公式化為:作為輸入,通過表示訓練集,其中X(i)是矩陣,尺寸為4×N,其中N是DNA序列的長度(在實驗中是101個堿基對)。序列中的每個堿基對表示為四個獨熱編碼之一[1,0,0,0],[0,1,0,0],[0,0,1,0]和[0,0,0,1]。該矩陣稱為位置頻率矩陣(PFM),其具有對應于遺傳字母表的每個通道的四行,即{A,T,C,G}。標簽Y(i)可以是標量或載體,取決于所研究的轉錄因子結合位點的數量。盡管如此,維度的數量等于分類任務,并且Y(i)的每個元素都是標準空間{0,1}中的二進制標簽。目標是準確地預測訓練數據中的標記,即準確地預測每個轉錄因子是否與給定序列結合。
本發明提出將BLSTM網絡和CNN網絡結合起來形成BLSTM+CNN模型,又稱為DeepSite,如圖1所示。該框架可以通過BLSTM層有效地表征基因序列中可能高度復雜的順序,并生成通過CNN和最大池層找到可能的序列模式。利用這種神經網絡,可以通過從BLSTM和CNN的每個中間隱藏值中獲取信息來捕獲基因序列的長短時依賴性信息。該模型包括輸入層、BLSTM層、卷積層、最大池化層、全連接層和輸出層,其結構如下:
第一層為輸入層,其使用獨熱編碼將每個輸入序列表示為4行二進制矩陣,每個序列的長度為101個堿基對;
第二層為BLSTM層,其中前一層中的每個LSTM模型將從輸入序列中接收DNA上感興趣的信息,對從過去歷史信息傳遞到隱藏狀態的貢獻進行編碼解釋;然后,該解釋信息將傳播到下一個BLSTM模塊中,包括其前一個和下一個LSTM塊;一直到最后一個核苷酸,LSTM模塊將做出最終確定;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于成都信息工程大學,未經成都信息工程大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201811244350.7/2.html,轉載請聲明來源鉆瓜專利網。
- 參與蛋白質-蛋白質相互作用的蛋白質亞群的分離方法
- 高效選出特異性地結合于配體的蛋白質的方法
- 檢測生物學樣品中的物質的方法
- 使用磁珠的微流體免疫試驗的方法和系統
- 與膜結合蛋白質結合的橡膠顆粒的制造方法,充氣輪胎的制造方法和橡膠制品的制造方法
- 蛋白質分解誘導標簽及其用途
- 肝型脂肪酸結合蛋白質制劑、對其評價的方法、抑制使用其的測定中的肝型脂肪酸結合蛋白質引起的測定值的變動幅度的方法、肝型脂肪酸結合蛋白質、其的制造方法、編碼其的DNA、由該DNA轉化得到的細胞、制作肝型脂肪酸結合蛋白質的校準曲線的方法及對該蛋白質進行定量的方法
- 用于蛋白質鑒定的方法和系統
- 蛋白質與藥物結合自由能的計算方法、系統、設備及介質
- 蛋白質復合物深度多序列比對方法





