[發明專利]一個基于雙向長短時記憶和卷積神經網絡的賴氨酸琥珀酰化修飾預測方法在審
| 申請號: | 202011609315.8 | 申請日: | 2020-12-30 |
| 公開(公告)號: | CN112927754A | 公開(公告)日: | 2021-06-08 |
| 發明(設計)人: | 黃國華;張桂陽;王攀 | 申請(專利權)人: | 邵陽學院 |
| 主分類號: | G16B20/00 | 分類號: | G16B20/00;G16B30/00;G16B40/00;G06N3/04;G06N3/08 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 422000 湖南省邵陽*** | 國省代碼: | 湖南;43 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一個 基于 雙向 短時記憶 卷積 神經網絡 賴氨酸 琥珀 修飾 預測 方法 | ||
本發明公開了一種基于雙向長短時記憶和卷積神經網絡的賴氨酸琥珀酰化修飾預測方法,包括:將琥珀酰化蛋白序列分割以賴氨酸為中心,上下游各15個氨基酸殘基的片段,用隨機抽樣方法處理數據的平衡問題;把已知的賴氨酸琥珀酰化修飾數據送入深度學習分類模型的嵌入層,把氨基酸轉換成矢量表示,然后輸入到一維卷積層、池化層、雙向長短時記憶網絡層、丟棄層、扁平層和全連接層,最終輸出賴氨酸琥珀酰化修飾位點的信息;本發明吸收了隱藏在琥珀酰化序列中的語義關系,能夠快速有效地預測賴氨酸琥珀酰化修飾;本發明還開發了網絡預測平臺,用于對賴氨酸琥珀酰化修飾位點的在線預測。
技術領域
本發明涉及計算生物分子學領域,特別是涉及利用人工智能理論和方法計算預測賴氨酸琥珀酰化修飾。
背景技術
賴氨酸琥珀酰化是典型的蛋白質翻譯后修飾,在細胞過程中起著至關重要的調節作用,鑒定琥珀酰化位點并了解其機制對于開發用于相關疾病的藥物至關重要。例如,Sreedhar等人證明了蛋白質的琥珀酰化作用會引起電荷轉移和結構改變,從而對蛋白質的功能產生影響;Ye等人證明了琥珀酰化異常參與了癌癥的發病機制;Gibson等人證明了琥珀酰化和神經系統疾病有關聯。
識別琥珀酰化是一個從實驗到計算再到實驗的循環迭代過程,有兩條主要途徑:實驗方法和計算方法。實驗方法以質譜為代表,這有助于琥珀酰化的驗證和第一手數據的收集;計算方法基于實驗方法產生的數據,并建立學習模型以預測需要通過實驗方法進行驗證的新的琥珀酰化反應。例如,Zhao等人使用自相關函數,基于組權重的編碼,歸一化的范德華體積和位置權重氨基酸組成。Kao等人利用氨基酸組成和信息豐富的間隔氨基酸對。Xu等人和Jia等人采用假氨基酸組成。現有的生物技術在從序列到特征的轉換過程中,將導致殘基間語義關系之類的信息丟失。本發明利用單詞嵌入技術將單詞轉換為向量,提出了一個基于雙向長短時記憶和卷積神經網絡的賴氨酸琥珀酰化修飾預測方法。
發明內容
本發明主要解決的技術問題是,針對現有方法的不足,提供了一個基于雙向長短時記憶和卷積神經網絡的賴氨酸琥珀酰化修飾預測方法,通過學習現有的琥珀酰化蛋白序列數據的潛在模式,該發明能夠有效地確定修飾位點。
為解決上述問題,本發明提出了一個基于雙向長短時記憶和卷積神經網絡的賴氨酸琥珀酰化修飾預測方法,步驟如下。
步驟1:對于每種蛋白質序列,將序列分割成以賴氨酸為中心、上下游各15個氨基酸殘基的肽;對于少于15個氨基酸殘基的肽,則在肽的前端或末端以字符“X”補齊;具有琥珀酰化位點的肽被視為陽性樣品,為解決陽性陰性樣本平衡問題,隨機抽取了與陽性樣本相同數量的琥珀酰化位點的肽作為陰性樣本,陽性樣本與陰性樣本共同構成訓練集。
步驟2:將蛋白質序列的訓練數據輸入到深度學習分類模型中進行訓練。
步驟3:將蛋白質序列輸入到訓練后的深度學習分類模型中,分類模型輸出賴氨酸琥珀酰化修飾位點的信息。
步驟4:構建基于雙向長短時記憶和卷積神經網絡的賴氨酸琥珀酰化修飾預測方法的Web服務器。
進一步地,所述步驟3包含以下步驟。
將序列分割成以賴氨酸為中心、上下游各15個氨基酸殘基的肽;對于少于15個氨基酸殘基的肽,則在肽的前端或末端以字符“X”補齊。
將肽輸入到步驟3中的深度學習分類模型中,深度學習分類模型對輸入為1的結果標注為琥珀酰化修飾。
有益結果。
本發明將蛋白序列直接輸入到深度學習分類模型中,利用已知的琥珀酰化修飾數據訓練一個深度學習分類模型;深度學習分類模型對未知蛋白序列進行預測。本發明吸收了隱藏在琥珀酰化序列中的語義關系,能夠快速有效地預測賴氨酸琥珀酰化修飾,本發明還開發了網絡預測平臺,用于對賴氨酸琥珀酰化修飾位點的在線預測。
附圖說明
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于邵陽學院,未經邵陽學院許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011609315.8/2.html,轉載請聲明來源鉆瓜專利網。





