[發明專利]一個基于雙向長短時記憶和卷積神經網絡的賴氨酸琥珀酰化修飾預測方法在審
| 申請號: | 202011609315.8 | 申請日: | 2020-12-30 |
| 公開(公告)號: | CN112927754A | 公開(公告)日: | 2021-06-08 |
| 發明(設計)人: | 黃國華;張桂陽;王攀 | 申請(專利權)人: | 邵陽學院 |
| 主分類號: | G16B20/00 | 分類號: | G16B20/00;G16B30/00;G16B40/00;G06N3/04;G06N3/08 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 422000 湖南省邵陽*** | 國省代碼: | 湖南;43 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一個 基于 雙向 短時記憶 卷積 神經網絡 賴氨酸 琥珀 修飾 預測 方法 | ||
1.一個基于雙向長短時記憶和卷積神經網絡的賴氨酸琥珀酰化修飾預測方法,步驟如下:
步驟1:將琥珀酰化修飾的蛋白序列進行分割,構成陽性樣本與陰性樣本集;
步驟2:將蛋白質序列的訓練數據輸入到深度學習分類模型中進行訓練;
步驟3:將蛋白質序列輸入到訓練后的深度學習分類模型中,分類模型輸出賴氨酸琥珀酰化修飾位點的信息;
步驟4:構建基于雙向長短時記憶和卷積神經網絡的賴氨酸琥珀酰化修飾預測方法的Web服務器。
2.根據權利要求項1所述的一個基于雙向長短時記憶和卷積神經網絡的賴氨酸琥珀酰化修飾預測方法,其特征在于:在所述的步驟1中,對于每種蛋白質序列,將序列分割成以賴氨酸為中心、上下游各15個氨基酸殘基的肽;對于少于15個氨基酸殘基的肽,則在肽的前端或末端以字符“X”補齊;具有琥珀酰化位點的肽被視為陽性樣品,為解決陽性陰性樣本平衡問題,隨機抽取了與陽性樣本相同數量的琥珀酰化位點的肽作為陰性樣本,陽性樣本與陰性樣本共同構成訓練集。
3.根據權利要求項1所述的一個基于雙向長短時記憶和卷積神經網絡的賴氨酸琥珀酰化修飾預測方法,其特征在于:在所述的步驟2中包括以下內容:
3.1構建深度學習分類模型,深度學習分類模型組成框架如下:
(1)嵌入層:
嵌入層大多數用于預測蛋白質翻譯后修飾的基于機器學習的方法通常都需要一個編碼步驟,該步驟將序列翻譯為載體表示形式,嵌入層將氨基酸轉換為矢量表示;
(2)一維卷積神經網絡層:
假設離散序列為α= [a1,a2,?,an],而卷積核為β= [b1,b2,?,bn],α和β的一維卷積乘積表示為:;
(3)池化層:
池化操作具有最大池化,最小池化和均值池化等類別;池化操作的作用包括刪除冗余信息和減少過度擬合;本發明使用了最大池化操作,即給定n通道輸入A =(ai,j,k),最大池化操作定義為:;
(4)雙向長短時記憶網絡:
循環神經網絡是不同于多層感知的神經網絡框架,具有權重,特別適用于序列分析領域,展開的RNN模型如圖2(a)所示;在時間步t處的隱藏狀態Ht不僅取決于當前輸入,還取決于上一個隱藏狀態,這是由下式決定的:,其中f是激活函數,α是偏差;在時間步t處的輸出Ot由下式計算:,其中g也是激活函數,β是偏差;對于長序列而言,循環神經網絡的是一類擁有短時記憶的神經網絡,在進行模型訓練時梯度容易消失,而循環神經網絡的變體長短時記憶網絡可以很好地解決這個問題;長短時記憶網絡包含一個候選存儲單元和三個門:忘記門,輸入門和輸出門,如圖2(b)所示;在時間步t,忘記門Ft,輸入門It和輸出門Pt分別由下式計算:
這里Wx,f和Wh,f分別表示的是從輸入到忘記門、從隱藏狀態到忘記門的鏈接權重;Wx,i和Wh,i分別表示的是從輸入到輸入門、從隱藏狀態到輸入門的鏈接權重;Wx,o和Wh,o分別表示的是從輸入到輸出門、從隱藏狀態到輸出門的鏈接權重;bf、bi和bo分別表示的是忘記門,輸入門和輸出門的偏置;σ是激活函數;候選存儲單元的計算公式為:,這里Wx,c和Wh,c分別表示的是從輸入到候選儲存單元、從隱藏狀態到候選儲存單元的鏈接權重,bc是的候選儲存單元偏置;在時間步t處的存儲單元由下式計算:,這里表示逐元素乘法;隱藏狀態由下式更新:;雙向循環神經網絡的結構如圖2(c)所示,在步驟t處的前向隱藏狀態由下式計算:,后向隱藏狀態是由下式計算:;時間步t的輸出由下式計算:;
(5)丟棄層:
為了解決訓練樣本的數量太少時深層神經網絡容易過度擬合的問題,深層神經網絡中的神經元以丟失率退出,并且僅保留神經元的參數在訓練階段被更新,而所有神經元都在預測階段被使用;
(6)扁平化層和完全連接層:
扁平化層的作用只是將數據轉換為一維,然后促進完全連接層的連接;扁平化層中沒有可訓練的參數,完全連接的層中的每個神經元都連接到前一層中的神經元;
3.2將測試集數據輸入到深度學習分類模型中進行模型訓練:
將具有31個氨基酸殘基的肽輸入到深度學習分類模型的嵌入層,翻譯成(31,64)形狀的載體;然后,分別輸入到一維卷積神經網絡和雙向長短時記憶網絡中,將它們的輸出串聯為全連接層的輸入;最終輸出的是一個神經元,代表屬于陽性樣本的概率。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于邵陽學院,未經邵陽學院許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011609315.8/1.html,轉載請聲明來源鉆瓜專利網。





