[發明專利]一種基于蛋白質預訓練表征學習的抗菌肽預測方法和裝置在審
| 申請號: | 202011498422.8 | 申請日: | 2020-12-17 |
| 公開(公告)號: | CN112614538A | 公開(公告)日: | 2021-04-06 |
| 發明(設計)人: | 劉向榮;張悅;曾湘祥;林劍遠;趙連敏 | 申請(專利權)人: | 廈門大學 |
| 主分類號: | G16B5/00 | 分類號: | G16B5/00;G16B30/10;G16B35/00;G16B40/00;G06N3/08 |
| 代理公司: | 廈門市精誠新創知識產權代理有限公司 35218 | 代理人: | 何家富 |
| 地址: | 361000 *** | 國省代碼: | 福建;35 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 蛋白質 訓練 表征 學習 抗菌 預測 方法 裝置 | ||
1.一種基于蛋白質預訓練表征學習的抗菌肽預測方法,其特征在于,包括以下步驟:
步驟S1:采用預訓練策略,對來自蛋白質數據庫的無標簽蛋白質序列進行分詞、遮蓋處理,進行掩蓋語言模型和句子連續性預測兩個任務的預訓練,捕捉詞語級別和句子級別的表示,幫助模型學習蛋白質序列通用的結構化特征;
步驟S2:針對抗菌肽識別和預測任務,更改預訓練模型的輸出層,使用帶標簽的抗菌肽數據集對模型進行微調,生成抗菌肽預測模型;
步驟S3:根據抗菌肽識別和預測任務,采用抗菌肽預測模型進行識別,輸出預測結果。
2.如權利要求1所述的基于蛋白質預訓練表征學習的抗菌肽預測方法,其特征在于,
所述步驟S1中的蛋白質序列的分詞處理是指將蛋白質序列文本按固定氨基酸數量進行等長分組,允許最后一個分組例外,每條蛋白質序列二分斷開形成語句對和上下文關系。
3.如權利要求1所述的基于蛋白質預訓練表征學習的抗菌肽預測方法,其特征在于,所述預訓練策略中采用的預訓練模型為BERT預訓練模型,所述BERT預訓練模型為深度雙向語言表征模型,采用雙向Transformer作為編碼器,所述預訓練的過程具體包括:
從蛋白質數據庫獲取大量無標記的蛋白質序列,形成預訓練數據集;
將預訓練數據集引入BERT預訓練模型進行預訓練;使用掩蓋語言模型和句子連續性預測兩個任務進行聯合訓練,所述預訓練包括兩個預訓練任務:采用掩蓋語言模型訓練模型預測蛋白質序列的蒙面氨基酸,采用句子連續性預測判斷蛋白質序列文本的語句對是否上下文連續。
4.如權利要求3所述的基于蛋白質預訓練表征學習的抗菌肽預測方法,其特征在于,所述預訓練任務中,采用掩蓋語言模型訓練預測蛋白質序列的蒙面氨基酸,具體包括:
以掩蓋語言模型作為源任務,隨機掩蓋數據中15%的單詞,通過使似然函數p=p(xmasked|xunmasked)最大化來預測這些被掩蓋的單詞;執行掩蓋策略,80%的情況下用[MASK]掩碼來替換被掩蓋的單詞,10%的情況下用一個隨機的詞來替換,10%的情況下是保持被選擇的詞不變。
5.如權利要求3所述的基于蛋白質預訓練表征學習的抗菌肽預測方法,其特征在于:所述預訓練任務中,采用句子連續性預測判斷蛋白質序列文本的語句對是否上下文連續,具體包括:隨機將數據劃分為兩部分,50%的數據中的兩個語句對是上下文連續的,另50%的數據中的兩個語句對是上下文不連續的,通過識別這些語句對是否連續來訓練BERT模型。
6.如權利要求1所述的基于蛋白質預訓練表征學習的抗菌肽預測方法,其特征在于,
所述步驟S2中,使用帶標簽的抗菌肽數據集對模型進行微調,生成特定的抗菌肽預測模型,具體包括:
選取抗菌肽數據集為訓練集,所述抗菌肽數據集包含已標記的抗菌肽序列和非抗菌肽序列;
對抗菌肽數據集進行平衡處理:對抗菌肽數據集的負樣本進行隨機向下采樣,使訓練集中的負樣本的數量和正樣本的數量可以比擬;所述正樣本是指抗菌肽序列,所述負樣本是指非抗菌肽序列。
7.如權利要求6所述的基于蛋白質預訓練表征學習的抗菌肽預測方法,其特征在于,所述帶標簽的抗菌肽數據集的數量為多個。
8.一種計算裝置,包括一個或多個處理器、存儲器,其特征在于:所述存儲器存儲有一段計算機程序,所述計算機程序被處理器執行時實現如權利要求1-7任一項所述的基于蛋白質預訓練表征學習的抗菌肽預測方法。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于廈門大學,未經廈門大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011498422.8/1.html,轉載請聲明來源鉆瓜專利網。





