[發明專利]一種基于深度學習和機器學習的抗病毒肽預測方法有效
| 申請號: | 202111342907.2 | 申請日: | 2021-11-12 |
| 公開(公告)號: | CN114093427B | 公開(公告)日: | 2023-06-09 |
| 發明(設計)人: | 葛瑞泉;夏一瀟;賈剛勇;黃潤根 | 申請(專利權)人: | 杭州電子科技大學 |
| 主分類號: | G16B40/00 | 分類號: | G16B40/00;G16B30/00;G06N3/0442;G06N3/0464;G06N3/0455;G06N3/048;G06N3/08;G06F18/2411;G06N20/10 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 310018 浙江省杭州*** | 國省代碼: | 浙江;33 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 深度 學習 機器 抗病毒 預測 方法 | ||
本發明公開了一種基于深度學習和機器學習領域的抗病毒肽預測方法,該方法的具體步驟如下:步驟1、獲取序列數據,其中所獲取的序列數據為待預測的肽序列;步驟2、對待預測的肽序列進行預處理;步驟3、將步驟2中得到的數據進行預測,并輸出預測結果。其融合模型選擇將神經網絡和機器分類相結合,并采取兩步走的預測方法,在交叉實驗和獨立測試集上的評估結果顯示,FusedModel相比于其他模型,有著良好的分類結果,為抗病毒肽的識別提供了快速而又準確的方法,方便現代醫療的研究以及治療。
技術領域
本發明屬于生物醫學大數據領域,涉及一種基于深度學習和機器學習領域的抗病毒肽預測方法。
背景技術
對蛋白質分類識別的模型日益完善,其中不乏單純的采用機器學習和深度學習的模型。而這兩種方法各自有優缺點。機器學習由于自身是基于統計學而使精準預測成為可能,并且其能夠在較小數據集上獲得較好效果;但是相比于深度學習,其在精準度和泛化能力上略有不足。而深度學習需要大量的數據集,但是生物醫學中大量的數據集是非常昂貴且稀少的,同時要想獲得精準的預測效果,深度學習需要大量的資源和實踐去訓練。另外,在抗病毒的過程中,肽起著至關重要的作用,而快速識別抗病毒肽就成為關鍵一步。在現存的模型中,大部分方法采用了單一的機器學習或者深度學習方法,然而這種純機器學習方法和純深度學習方法在時間上對蛋白質結構類的預測效果精度低,預測數據容易丟失,并沒有突出的表現。因此我們選擇將機器學習和深度學習結合,從而達到既能快速訓練,同時還能確保預測精準度和具備泛化能力的效果。
發明內容
本發明根據現有技術的不足,提出一種基于深度學習和機器學習領域的抗病毒肽預測方法,能夠實現快速預測,并且精度高。
為了解決上述技術問題,本發明的技術方案為:
一種基于深度學習和機器學習的抗病毒肽預測方法,該方法的具體步驟如下:
步驟1、獲取序列數據,其中所獲取的序列數據為待預測的肽序列;
步驟2、對待預測的肽序列進行預處理;
步驟3、將步驟2中得到的數據進行預測,并輸出預測結果,
所述步驟2包括:
步驟2.1、獲取特征矩陣,按照預設的特征提取方法分別提取待預測的肽序列的特征并分別存儲,定義待預測的肽序列數量為M,提取特征維度為N,將最后結果保存為維度為M*N的特征矩陣;
步驟2.2、對步驟1中的待預測的肽序列進行獨熱碼編碼(one-hot)。
所述步驟3包括:
步驟3.1、通過步驟2中獲取的數據進行初步預測,并輸出初步預測結果;
步驟3.2、將初步預測結果導入最終支持向量機SVM分類模型中得到最后預測,并輸出預測結果。
作為優選,步驟2.1中按照18種特征提取方法分別提取待預測的肽序列的特征并分別存儲。
作為優選,所述步驟2.2中,首先將待預測的肽序列統一成同一長度,序列不足的末尾補X,超出長度的進行截取前一部分,然后按照獨熱碼編碼規則進行編碼得到獨熱碼。
作為優選,所述步驟3.1中的初步預測包括:
步驟3.1.1、將步驟2.2中獲得獨熱碼導入至第一神經網絡輸出預測概率及預測標簽;
步驟3.1.2、將步驟2.1中獲得的18種特征矩陣分別導入LightGBM中,并分別輸出18維的預測概率以及預測標簽結果并保存;
步驟3.1.3、將步驟2.1中獲得的18種特征矩陣分別導入至第二神經網絡并輸出18維的預測概率以及預測標簽結果并保存;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于杭州電子科技大學,未經杭州電子科技大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202111342907.2/2.html,轉載請聲明來源鉆瓜專利網。





