[發(fā)明專利]一種基于蛋白質(zhì)預(yù)訓(xùn)練表征學(xué)習(xí)的抗菌肽預(yù)測方法和裝置在審
| 申請?zhí)枺?/td> | 202011498422.8 | 申請日: | 2020-12-17 |
| 公開(公告)號: | CN112614538A | 公開(公告)日: | 2021-04-06 |
| 發(fā)明(設(shè)計)人: | 劉向榮;張悅;曾湘祥;林劍遠;趙連敏 | 申請(專利權(quán))人: | 廈門大學(xué) |
| 主分類號: | G16B5/00 | 分類號: | G16B5/00;G16B30/10;G16B35/00;G16B40/00;G06N3/08 |
| 代理公司: | 廈門市精誠新創(chuàng)知識產(chǎn)權(quán)代理有限公司 35218 | 代理人: | 何家富 |
| 地址: | 361000 *** | 國省代碼: | 福建;35 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 蛋白質(zhì) 訓(xùn)練 表征 學(xué)習(xí) 抗菌 預(yù)測 方法 裝置 | ||
本發(fā)明公開了一種基于蛋白質(zhì)預(yù)訓(xùn)練表征學(xué)習(xí)的抗菌肽預(yù)測方法和裝置,所述方法包括以下步驟:步驟S1:采用預(yù)訓(xùn)練策略,對來自蛋白質(zhì)數(shù)據(jù)庫的無標簽蛋白質(zhì)序列進行分詞、遮蓋處理,進行掩蓋語言模型和句子連續(xù)性預(yù)測兩個任務(wù)的預(yù)訓(xùn)練,捕捉詞語級別和句子級別的表示,幫助模型學(xué)習(xí)蛋白質(zhì)序列通用的結(jié)構(gòu)化特征;步驟S2:針對抗菌肽預(yù)識別和預(yù)測任務(wù),更改預(yù)訓(xùn)練模型的輸出層,使用帶標簽的抗菌肽數(shù)據(jù)集對模型進行微調(diào),生成抗菌肽預(yù)測模型;步驟S3:根據(jù)抗菌肽預(yù)識別和預(yù)測任務(wù),采用抗菌肽預(yù)測模型進行識別,輸出預(yù)測結(jié)果。本發(fā)明將預(yù)訓(xùn)練應(yīng)用到抗菌肽識別和預(yù)測領(lǐng)域,基于已知的數(shù)據(jù)量小、分布不均衡的抗菌肽序列,建立高效的抗菌肽預(yù)測模型。
技術(shù)領(lǐng)域
本發(fā)明涉及抗菌肽組分的計算機識別技術(shù)領(lǐng)域,尤其涉及一種基于蛋白質(zhì)預(yù)訓(xùn)練表征學(xué)習(xí)的抗菌肽預(yù)測方法和裝置。
背景技術(shù)
由于抗生素的濫用,致病菌抗藥性問題日趨嚴重,已經(jīng)成為影響人類健康的巨大威脅。尋找抗生素的新原料是保護人類健康的有效途徑。作為生物機體天然免疫系統(tǒng)的重要組成部分,抗菌肽(AMP)是一類在自然界生物中廣泛存在的小分子多肽,通過破壞細胞膜、干擾DNA的復(fù)制和轉(zhuǎn)錄過程等方式殺滅靶菌,對細菌、病毒、真菌、寄生蟲、腫瘤細胞具有一定的抑殺作用。由于具有抗菌活性高,作用效果穩(wěn)定,靶菌株不易產(chǎn)生抗藥性,無藥物殘留等許多優(yōu)點,抗菌肽被視為抗生素的最佳替代品。
由于識別抗菌肽的實驗方法成本高、難度大,因此越來越多的研究集中在用計算方法解決這個問題。
科研工作者陸續(xù)建立了多個抗菌肽數(shù)據(jù)庫,收錄了各種來源各種類型的抗菌肽數(shù)據(jù),如APD、CAMP、AVPdb等,極大地方便了抗菌肽的研究。使用者可以通過查詢,從數(shù)據(jù)庫中獲得抗菌肽的氨基酸序列、理化性質(zhì)、功能注釋等信息,還可以使用其提供的檢索、序列比對、預(yù)測分析等工具對數(shù)據(jù)進行處理。
目前,抗菌肽的計算機輔助識別方法可分為基于經(jīng)驗分析的方法和基于機器學(xué)習(xí)的方法。
基于經(jīng)驗分析的方法以確定類型的抗菌肽為模板,利用已知的經(jīng)驗規(guī)則對肽鏈特征與抗菌活性間之間的關(guān)系進行統(tǒng)計分析,建立模型,本質(zhì)上是識別待測序列是否具有訓(xùn)練集的某些特定特征。該方法在預(yù)測抗菌肽序列上十分有效,缺點是比較依賴訓(xùn)練集現(xiàn)有的語義模式,難以遷移到其他類別的抗菌肽上。
研究人員已經(jīng)提出了許多基于機器學(xué)習(xí)來鑒定和預(yù)測抗菌肽的方法。例如,F(xiàn)jellC D等人構(gòu)建了一個用于AMP聚類和分析的隱馬爾可夫模型(HMM);Lata S等人使用支持向量機(SVM)來預(yù)測和分類AMP;Xiao X等人開發(fā)了基于模糊K最近鄰(FKNN)的AMP分類器;Chang K Y等人首次將隨機森林應(yīng)用到抗病毒肽(AVPs)的預(yù)測中。這些研究表明,氨基酸序列本身包含了其是否具有抗菌活性的關(guān)鍵信息。
大多數(shù)現(xiàn)有的計算方法可以通過序列本身識別抗菌肽,但由于已知的抗菌肽的數(shù)據(jù)量比較少,識別準確率仍有提高空間,且存在構(gòu)建的模型不能在各數(shù)據(jù)集中通用的問題。因此,如何提高識別和預(yù)測精度,如何構(gòu)建在不同數(shù)據(jù)集上可快速遷移的通用模型是需要探索的問題。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于廈門大學(xué),未經(jīng)廈門大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011498422.8/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。





