[發明專利]一種基于多尺度注意力卷積神經網絡的RNA結合蛋白預測方法及裝置有效
| 申請號: | 202010571759.0 | 申請日: | 2020-06-22 |
| 公開(公告)號: | CN111798921B | 公開(公告)日: | 2022-08-05 |
| 發明(設計)人: | 杜博;劉子翼;羅甫林 | 申請(專利權)人: | 武漢大學 |
| 主分類號: | G16B5/20 | 分類號: | G16B5/20;G16B15/20;G16B20/30;G16B40/00;G06N3/04 |
| 代理公司: | 武漢科皓知識產權代理事務所(特殊普通合伙) 42222 | 代理人: | 羅飛 |
| 地址: | 430072 湖*** | 國省代碼: | 湖北;42 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 尺度 注意力 卷積 神經網絡 rna 結合 蛋白 預測 方法 裝置 | ||
1.一種基于多尺度注意力卷積神經網絡的RNA結合蛋白預測方法,其特征在于,包括:
S1:獲取RNA數據并進行預處理;
S2:對預處理后的RNA數據進行編碼,構建網絡訓練樣本;
S3:構建多尺度注意力卷積神經網絡,其中,多尺度注意力卷積神經網絡包括多個分支,每個分支設置不同大小的卷積核,分別用以學習在RNA數據中的不同尺度的特征,并引入通道注意力機制學習不同通道在分類時的重要性,在進行RNA結合位點識別時,不同的通道的卷積核對應不同的結合位點結構;
S4:將網絡訓練樣本輸入構建的多尺度注意力卷積神經網絡中,并采用Adam優化方法訓練多尺度注意力卷積神經網絡中的參數,得到訓練好的多尺度注意力卷積神經網絡;
S5:將待預測的RNA數據進行預處理和編碼后輸入訓練好的多尺度注意力卷積神經網絡中,得到預測結果,其中,預測結果包括RNA數據是否有結合蛋白對應的結合位點;
其中,S3中構建的多尺度注意力卷積神經網絡包括四個分支,第一個分支包括卷積、池化、相乘、卷積、池化和相乘,第二個分支、第三個分支以及第四個分支均包括卷積、池化、卷積和池化,第一個分支的第一個相乘為第一次卷積池化后的輸出結果與各通道注意力權重相乘,第二相乘為第二卷積池化后的輸出結果與各通道注意力權重相乘;每個分支提取出的不同尺度的特征相加后,通過一個全連接層,得到最終預測結果。
2.如權利要求1所述的預測方法,其特征在于,S1具體包括:將獲取的不同長度的RNA數據填補至相同的長度。
3.如權利要求1所述的預測方法,其特征在于,S2具體包括:
將預處理后的RNA數據采用One-hot矩陣表示,構成網絡訓練樣本。
4.如權利要求1所述的預測方法,其特征在于,構建的網絡訓練樣本包括正訓練樣本和負訓練樣本,蛋白質對應的正訓練樣本為包含有該蛋白質結合位點的RNA數據,負訓練樣本為無該蛋白質結合位點的RNA數據,訓練過程中,正訓練樣本標簽賦值為1,負訓練樣本標簽賦值為0。
5.如權利要求1所述的預測方法,其特征在于,通道注意力權重的計算方式為:
outputs=softmax(W2sigmoid(W1Z))
其中,Zk是通道描述符,W是卷積核的寬度,Xi,k為卷積池化后的輸出,W1是編碼器的權重,W2是用于學習每通道重要性的解碼器權重,outputs為通道注意力權重。
6.如權利要求1所述的預測方法,其特征在于,在訓練過程中,采用基于交叉熵改進的損失函數,
其中,yi是RNA數據真實的標簽,是經過網絡預測得到的標簽,是后3個分支的第1個卷積層的第k個通道的卷積核,λ是正則化參數。
7.如權利要求1所述的預測方法,其特征在于,在S5中預測RNA結合位點的結構時,選取第一個卷積層的輸出中大于最大值的80%作為結合位點的潛在位點,統計該權重對應到源RNA序列的排布情況,得到不同位置上不同堿基的概率大小,構成位置權重矩陣,即結合位點的預測,該權重為第一個卷積層的輸出中大于最大值的80%的輸出的值。
8.根據權利要求1所述的預測方法,其特征在于,S5中在預測RNA結合位點是否存在時,卷積神經網絡輸出的結果是一個N*2的矩陣,每個RNA數據對應一個2維向量,向量中的2個數之和為1,表示RNA中是否存在結合蛋白的結合位點的概率大小。
9.一種基于多尺度注意力卷積神經網絡的RNA結合蛋白預測裝置,其特征在于,包括:
預處理模塊,用于獲取RNA數據并進行預處理;
編碼模塊,用于對預處理后的RNA數據進行編碼,構建網絡訓練樣本;
網絡構建模塊,用于構建多尺度注意力卷積神經網絡,其中,多尺度注意力卷積神經網絡包括多個分支,每個分支設置不同大小的卷積核,分別用以學習在RNA數據中的不同尺度的特征,并引入通道注意力機制學習不同通道在分類時的重要性,在進行RNA結合位點識別時,不同的通道的卷積核對應不同的結合位點結構;
網絡訓練模塊,用于將網絡訓練樣本輸入構建的多尺度注意力卷積神經網絡中,并采用Adam優化方法訓練多尺度注意力卷積神經網絡中的參數,得到訓練好的多尺度注意力卷積神經網絡;
預測模塊,用于將待預測的RNA數據進行預處理和編碼后輸入訓練好的多尺度注意力卷積神經網絡中,得到預測結果,其中,預測結果包括RNA數據是否有結合蛋白對應的結合位點;
其中,網絡構建模塊中構建的多尺度注意力卷積神經網絡包括四個分支,第一個分支包括卷積、池化、相乘、卷積、池化和相乘,第二個分支、第三個分支以及第四個分支均包括卷積、池化、卷積和池化,第一個分支的第一個相乘為第一次卷積池化后的輸出結果與各通道注意力權重相乘,第二相乘為第二卷積池化后的輸出結果與各通道注意力權重相乘;每個分支提取出的不同尺度的特征相加后,通過一個全連接層,得到最終預測結果。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于武漢大學,未經武漢大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010571759.0/1.html,轉載請聲明來源鉆瓜專利網。





