[發明專利]一種基于循環神經網絡的蛋白質二級結構預測方法在審
| 申請號: | 202110097155.1 | 申請日: | 2021-01-25 |
| 公開(公告)號: | CN112837741A | 公開(公告)日: | 2021-05-25 |
| 發明(設計)人: | 胡俊;殷文杰;賈寧欣;曾文武;董明;張貴軍 | 申請(專利權)人: | 浙江工業大學 |
| 主分類號: | G16B15/20 | 分類號: | G16B15/20;G16B40/00 |
| 代理公司: | 杭州斯可睿專利事務所有限公司 33241 | 代理人: | 王利強 |
| 地址: | 310014 浙江省*** | 國省代碼: | 浙江;33 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 循環 神經網絡 蛋白質 二級 結構 預測 方法 | ||
1.一種基于循環神經網絡的蛋白質二級結構預測方法,其特征在于,所述預測方法包括以下步驟:
1)輸入一個殘基數為L的待進行蛋白質二級結構預測的蛋白質序列,記作S;
2)對蛋白質序列S,使用獨熱編碼方式進行編碼,得到一個大小為L×20的特征矩陣,記作M1,M1中第i行第j列元素表示為:
其中,A1,A2,...,A20表示20種常見氨基酸類型的殘基,Ti表示序列S中第i個殘基的類型;
3)對蛋白質序列S,使用PSI-BLAST程序生成蛋白質位置特異性評分矩陣,記作PSSM;
4)對M1和PSSM進行矩陣加法運算,獲取一個大小為L×20的矩陣,記作M2;
5)計算矩陣M2中每一行的平均值,獲取一個大小為L×1的向量,記作H;
6)計算矩陣M2中的每一行方差,獲取一個大小為L×1的向量,記作V;
7)對蛋白質序列S,通過以下公式獲取一個大小為L×20的特征矩陣F,F中第i行第j列元素表示為:
其中,表示M2中第i行第j列元素,Hi表示H中第i個元素,Vi表示V中第i個元素;
8)矩陣F中任意一行Fi,i=1,2,...,L,表示蛋白質序列S中第i個殘基的特征向量;
9)從PDB數據庫中獲取已知殘基二級結構類別的蛋白質序列作為訓練集,所述殘基二級結構類別包括埋藏、中間狀態和暴露,使用步驟2)-8)生成訓練集中所有殘基的特征向量;結合殘基二級結構類別標簽,構建訓練樣本集;
10)搭建循環神經網絡預測蛋白質序列S中殘基的二級結構類別,該網絡由三個部分組成,第一個部分是卷積層部分,該部分由一個卷積核大小為1×20的卷積層、一個卷積核大小為3×1的卷積層、一個歸一化層、一個池化層組成;第二個部分是循環層部分,該部分由兩個LSTM層組成;最后一個部分是全連接層部分,該部分由兩個全連接層組成,每一層輸出作為下一層的輸入,使用sigmoid激活函數使網絡的輸出值在(0,1)范圍內;
11)使用步驟9)中構建的訓練樣本集訓練步驟10)中搭建的網絡,訓練階段采用交叉熵損失函數調整網絡中的參數,交叉熵損失函數記作:
其中,u表示蛋白質序列中待測殘基的真實標簽,表示網絡模型預測殘基類別對應的輸出值,Y表征預測輸出與真實標簽的差距;
12)將蛋白質序列S中殘基的特征向量輸入到步驟11)訓練的模型中,根據模型輸出每個殘基二級結構類別的概率值,概率最大值對應的類別即為該殘基二級結構的預測類別。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于浙江工業大學,未經浙江工業大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110097155.1/1.html,轉載請聲明來源鉆瓜專利網。





