[發明專利]一種基于深度學習的RBP結合位點預測算法有效
| 申請號: | 202110229810.4 | 申請日: | 2021-03-02 |
| 公開(公告)號: | CN113035280B | 公開(公告)日: | 2022-03-11 |
| 發明(設計)人: | 朱敏;閆建榮;明章強;王心翌 | 申請(專利權)人: | 四川大學 |
| 主分類號: | G16B40/00 | 分類號: | G16B40/00;G16B20/30;G16B5/00;G06N3/08;G06N3/04 |
| 代理公司: | 成都禾創知家知識產權代理有限公司 51284 | 代理人: | 劉凱 |
| 地址: | 610065 四川*** | 國省代碼: | 四川;51 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 深度 學習 rbp 結合 預測 算法 | ||
1.一種基于深度學習的RBP結合位點預測算法,其特征在于,包括如下步驟:
步驟1)對于給定的RBP數據集,首先提取序列信息和獨立測試集;再根據序列信息,預測出二級結構信息;根據序列和結構信息,分別構建序列和結構的編碼矩陣;并構建獨立測試集的編碼矩陣,對應于每個RBP創建正樣本和負樣本;
步驟2)構建包括生成網絡和判別網絡的生成對抗網絡;在訓練過程中,采用強化學習對判別網絡優化,使優化過后的判別網絡促使生成網絡生成更逼真的合成數據,并在步驟1)中所得的序列和結構的編碼矩陣上分別進行訓練;
步驟3)構建卷積自編碼器預測模型,將步驟1)中所得到的編碼矩陣和步驟2)中所得到的合成數據合并,分別得到數據規模更大的序列和結構矩陣,將序列和結構矩陣分別訓練;
步驟4)分別提取卷積自編碼器中序列和結構編碼器中卷積核的參數,分別與RNA序列和結構的編碼矩陣進行卷積運算,針對每個RBP,將所有滑動窗口中超過規定閾值的短序列拼接起來,對每組短序列進行序列比對,統計序列中每個位置上的一致性,作為motif;
步驟5)對每種RBP數據均訓練一個對應的預測模型;對于一個待預測的RNA序列,首先編碼序列,然后將編碼信息輸入到已訓練好的各個預測模型中,最終的結果即為特異RNA與各個RBP對應的結合概率。
2.根據權利要求1所述的基于深度學習的RBP結合位點預測算法,其特征在于,所述步驟1)中構建序列和結構的編碼矩陣過程如下:
步驟1.1)設定RNA序列長度為L,對RNA序列和標簽進行one-hot編碼;對于長度不足L的序列,采用“N”在末尾填充,“N”為等概率填充,“N”的向量表示為[0.25,0.25,0.25,0.25];對于超過L的序列,將截取長度L作為訓練序列;對于堿基A、C、G、U序列編碼后編碼矩陣維度為L×4;
步驟1.2)RNA二級結構為由FocusFold算法預測得到的“點-括號”格式,一對左右“括號”表示存在一對堿基配對,而“點”則表示未發生配對,每個符號分別按順序對應于每個堿基位點,然后根據堿基配對原則,得到每個堿基位點的二級結構注釋,所述二級結構注釋包括堆疊S、自由端F、連接處J、發卡環H、內環與多環M,對RNA結構進行one-hot編碼,結構編碼后特編碼陣維度為L×5。
3.根據權利要求2所述的基于深度學習的RBP結合位點預測算法,其特征在于,所述步驟2)中生成合成數據的過程如下:
步驟2.1)所述生成對抗網絡包括生成網絡和判別網絡,其中,生成網絡包括一層循環神經網絡和一層全連接網絡,全連接網絡作為輸出單元;判別網絡包括一層循環神經網絡、一層全連接網絡和分類器;
步驟2.2)將步驟1.1)和步驟1.2)中所得的序列和結構的編碼矩陣分別輸入到生成對抗網絡訓練,采用強化學習技術優化判別網絡;被優化的判別網絡的返回值反饋給生成網絡,多次訓練迭代,生成網絡生成更逼真的合成數據;
步驟2.3)提取步驟2.2)中已訓練好的序列和結構生成網絡,分別生成合成的序列和結構矩陣。
4.根據權利要求3所述的基于深度學習的RBP結合位點預測算法,其特征在于,所述生成網絡中,循環神經網絡采用雙向LSTM,包含256個計算單元;全連接網絡作為輸出層,包含100個神經元;
所述判別網絡中,循環神經網絡采用雙向LSTM,包含256個計算單元;全連接網絡作為中間層,包含100個神經元;分類器采用Sigmoid激活函數。
5.根據權利要求1所述的基于深度學習的RBP結合位點預測算法,其特征在于,所述步驟3)中卷積自編碼器構建與訓練過程如下:
步驟3.1)所述卷積自編碼器包括編碼器與解碼器,在預訓練階段,編碼器與解碼器共同工作,序列和結構分別訓練,輸入數據經過編碼器的降維學習,得到中間抽象特征,之后解碼器重構輸入數據;
步驟3.2)在微調階段,提取編碼器模型與權重參數,將序列和結構的編碼器并行,增加兩層LSTM層,最終實現結合位點預測。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于四川大學,未經四川大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110229810.4/1.html,轉載請聲明來源鉆瓜專利網。





