[發明專利]一種基于BP神經網絡的蛋白質二級結構預測方法在審
| 申請號: | 201610020567.4 | 申請日: | 2016-01-13 |
| 公開(公告)號: | CN105740646A | 公開(公告)日: | 2016-07-06 |
| 發明(設計)人: | 傅娟;湯達祺;湯德佑 | 申請(專利權)人: | 湖南工業大學;華南理工大學 |
| 主分類號: | G06F19/16 | 分類號: | G06F19/16;G06N3/08 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 412007 湖南省株洲市*** | 國省代碼: | 湖南;43 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 bp 神經網絡 蛋白質 二級 結構 預測 方法 | ||
技術領域
本發明涉及生物信息領域,特別涉及蛋白質二級結構預測方法。
背景技術
蛋白質的高級結構決定其生物功能,其中蛋白質二級結構由其氨基酸序列特征決定,是預測高級結構的基礎。蛋白質二級結構主要利用氨基酸序列信息,通過實驗分析或統計方法對蛋白質的二級結構進行預測,當預測的正確率達到80%以上時,就可以比較準確的描述蛋白質的空間結構。隨著DNA分析和測序技術的發展,通過對DNA的推導和分析獲得了大量的蛋白質序列信息,但是通過傳統實驗和統計方法分析獲得的蛋白質結構卻很少,蛋白質結構數據更新緩慢,阻礙了蛋白質結構和功能相關研究的發展,目前研究的重點逐漸開始轉向尋找新的結構預測方法。
人工神經網絡(ArtificialNeuralNetwork,即ANN),由人腦神經元網絡抽象而來,從信息分析和處理的角度,對自然神經網絡的特性進行抽象和模擬,按不同的規則和連接方式組成網絡。BP神經網絡算法是目前應用最廣泛的神經網絡模型之一,被成功應用于信息、生物和醫學等領域的研究中。BP神經網絡算法的引入,使蛋白質結構預測獲得了新的途徑。
發明內容
本發明針對蛋白質二級結構預測準確率低及BP神經網絡存在的缺陷,對網絡的學習過程進行改進的問題,提供一種用于蛋白質二級結構預測的BP神經網絡訓練及預測方法。
本發明是通過下述方案予以實現的,一種基于BP神經網絡的蛋白質二級結構預測方法,采用下述步驟實現:
步驟一、從PDB中選取一組α螺旋、β折疊和卷曲三類結構占正常比例的蛋白質結構數據組成訓練樣本集;
步驟二、采用六位輸入編碼蛋白質的氨基酸序列信息,采用滑動窗口選定輸入范圍;
步驟三、BP神經網絡訓練參數初始化,滑動窗口位置初始化;
步驟四·一、隱藏層輸出計算,選取訓練樣本輸入網絡,計算隱藏層輸出;
步驟四·二、輸出層輸出計算,利用隱藏層計算獲得的輸出,計算輸出層輸出;
步驟四·三、輸出層權值誤差計算,比較網絡實際輸出與期望輸出,計算輸出層權值誤差;
步驟四·四、隱藏層權值誤差計算,利用輸出層校正誤差和隱藏層輸出,計算獲得隱藏層權值誤差;
步驟四·五、反向調整網絡中各神經元的權值,根據誤差計算權值調整量,對神經元的權值和閾值進行調整;
步驟四·六、滑動窗口右移一位,跳至四·一,直到整個蛋白質序列計算完成;
步驟四·七、選擇下一條訓練樣本進行學習,跳至四·一,直到所有序列計算完成;
步驟四·八判斷網絡誤差是否小于期望誤差,若小于期望誤差則結束訓練,否則判斷迭代次數是否達到最大學習次數,當小于最大學習次數時跳步驟四·一,否則結束訓練;
步驟五、輸入測試數據,判定蛋白質序列所對應的二級結構。
本發明采用BP神經網絡算法對蛋白質二級結構進行預測,并針對BP神經網絡存在的缺陷,對網絡的學習過程進行改進。在網絡學習過程中,采用批處理學習模式,提升計算過程的并行空間,提高網絡收斂速度;其次,基于梯度方法上進行優化,引入附帶動量項和自適應學習率的學習規則,避免“振蕩現象”和陷入局部極小值。在網絡結構和相關技術的選擇上,在輸入層采用六位輸入編碼方式和滑動窗口技術,隱藏層結構根據經驗公式和滑動窗口大小進行設置,輸出層依據DSSP算法對蛋白質二級結構的分類進行輸出預測。
附圖說明
圖1為滑動窗口示意圖,窗口大小為2n+1,窗口兩側長度均為n,待預測氨基酸殘基為窗口中心位置的殘基I,輸入網絡的相鄰氨基酸殘基為YFQSMSVKGR和YSILKQIG,則網絡的期望輸出則為T。隨后窗口右移一個位置,對下一個殘基的結構進行預測,則待預測氨基酸殘基變為Y,期望輸出為E。
圖2為六位編碼方式示例圖,窗口中心的丙氨酸(A)的編碼為000011,窗口右側異亮氨酸(I)的編碼為010000.125。
圖3為用于蛋白質二級結構的BP神經網絡模型,輸入層有N個神經元,隱藏層有T個神經元,輸出層有M個神經元。
圖4為BP神經網絡訓練流程圖,是對訓練樣本集進行反復學習,使網絡逐漸收斂的過程。
具體實施方式
一種基于BP神經網絡的蛋白質二級結構預測方法,采用下述方法具體實施:
具體實施方式一:下面結合圖1、圖2、圖3具體說明本實施方式。
步驟一、從PDB中選取一組α螺旋、β折疊和卷曲三類結構占正常比例的蛋白質結構數據組成訓練樣本集,三類結構比例均在20%~40%間,卷曲結構偏多;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于湖南工業大學;華南理工大學,未經湖南工業大學;華南理工大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201610020567.4/2.html,轉載請聲明來源鉆瓜專利網。
- 同類專利
- 專利分類
G06F 電數字數據處理
G06F19-00 專門適用于特定應用的數字計算或數據處理的設備或方法
G06F19-10 .生物信息學,即計算分子生物學中的遺傳或蛋白質相關的數據處理方法或系統
G06F19-12 ..用于系統生物學的建模或仿真,例如:概率模型或動態模型,遺傳基因管理網絡,蛋白質交互作用網絡或新陳代謝作用網絡
G06F19-14 ..用于發展或進化的,例如:進化的保存區域決定或進化樹結構
G06F19-16 ..用于分子結構的,例如:結構排序,結構或功能關系,蛋白質折疊,結構域拓撲,用結構數據的藥靶,涉及二維或三維結構的
G06F19-18 ..用于功能性基因組學或蛋白質組學的,例如:基因型–表型關聯,不均衡連接,種群遺傳學,結合位置鑒定,變異發生,基因型或染色體組的注釋,蛋白質相互作用或蛋白質核酸的相互作用





