[發明專利]一種基于循環神經網絡的蛋白質二級結構預測方法在審
| 申請號: | 202110097155.1 | 申請日: | 2021-01-25 |
| 公開(公告)號: | CN112837741A | 公開(公告)日: | 2021-05-25 |
| 發明(設計)人: | 胡俊;殷文杰;賈寧欣;曾文武;董明;張貴軍 | 申請(專利權)人: | 浙江工業大學 |
| 主分類號: | G16B15/20 | 分類號: | G16B15/20;G16B40/00 |
| 代理公司: | 杭州斯可睿專利事務所有限公司 33241 | 代理人: | 王利強 |
| 地址: | 310014 浙江省*** | 國省代碼: | 浙江;33 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 循環 神經網絡 蛋白質 二級 結構 預測 方法 | ||
一種基于循環神經網絡的蛋白質二級結構預測方法,首先根據輸入的待進行二級結構預測的蛋白質序列,使用獨熱編碼方式對蛋白質序列進行編碼,獲取一個L×20的特征矩陣M1,使用PSI?BLAST程序生成蛋白質位置特異性評分矩陣PSSM;然后,將M1和PSSM進行矩陣加法運算得到矩陣M2;其次,獲取殘基的特征向量;再次,搭建循環神經網絡框架,通過從PDB數據庫獲取已知二級結構標簽的蛋白質序列構建樣本集,訓練搭建的循環神經網絡;最后,將待進行預測的蛋白質序列中殘基的特征向量輸入到訓練的模型中,根據輸出的概率值來預測蛋白質序列中殘基的二級結構類別。本發明計算代價低、預測精確性高。
技術領域
本發明涉及生物信息學、深度學習與計算機應用領域,具體而言涉及一種基于循環神經網絡的蛋白質二級結構預測方法。
背景技術
蛋白質二級結構的預測是三級結構預測中至關重要的中間步驟,也是連接蛋白質序列和三級結構的橋梁。蛋白質二級結構的準確鑒定不僅可以幫助我們了解蛋白質序列與三級結構之間復雜的依賴關系,還可以促進蛋白質功能分析和藥物設計。
目前,通過深度學習進行蛋白質二級結構預測的方法有:SSpro8(Gianluca,Pollastri,Darisz,et al.Improving the prediction of protein secondarystructure in three and eight classes using recurrent neural networks andprofiles[J].Proteins Structure FunctionGenetics,2002.即:Gianluca等人.SSpro8:利用循環歸神經網絡和譜文件改進3類和8類蛋白質二級結構的預測[J].蛋白質結構、功能與遺傳學,2002.)、BLSTM(Snderby S K,Winther O.Protein Secondary StructurePrediction with Long Short Term Memory Networks[J].Computer Science,2014.即:Snderby S K,Winther O.BLSTM:基于長短時記憶網絡的蛋白質二級結構預測[J].計算機科學,2014.)、GSN(Zhou J,Troyanskaya O G.Deep Supervised and ConvolutionalGenerative Stochastic Network for Protein Secondary Structure Prediction[J].Computer Science,2014:745-753.即:Zhou J,Troyanskaya O G.基于深度監督卷積生成隨機網絡的蛋白質二級結構預測[J].計算機科學,2014:745-753.)與CRRNNs(Buzhong Z,Jinyan L,LüQiang.Prediction of 8-state protein secondary structures by anovel deep learning architecture[J].BMC Bioinformatics,2018,19(1):293.即:Buzhong Z,Jinyan L,LüQiang.通過一種新的深度學習結構進行蛋白質的8態二級結構的預測[J].BMC生物信息學,2018,19(1):293.)等。與傳統的機器學習方法相比,基于深度學習的方法能夠更加充分地提取蛋白質序列中的氨基酸特征和隱藏模式。盡管已有的蛋白質二級結構預測方法取得了不錯的效果,但這些方法僅提取沿氨基酸殘基維度的特征。因此,這些方法可能忽略了隱藏在蛋白質序列特征向量中的一些重要特征,而這些特征可能對預測二級結構有用。
綜上所述,現存的蛋白質二級結構預測方法在計算代價、預測精確性方面,距離實際應用的要求還有很大差距,迫切地需要改進。
發明內容
為了克服現有蛋白質二級結構預測方法在計算代價、預測精確性方面的不足,本發明提出一種計算代價低、預測精確性高的基于循環神經網絡的蛋白質二級結構預測方法。
本發明解決其技術問題所采用的技術方案是:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于浙江工業大學,未經浙江工業大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110097155.1/2.html,轉載請聲明來源鉆瓜專利網。





