[發明專利]基于注意力機制的抗體非定序預測方法和裝置有效
| 申請號: | 202210466987.0 | 申請日: | 2022-04-29 |
| 公開(公告)號: | CN114822696B | 公開(公告)日: | 2023-04-18 |
| 發明(設計)人: | 張林峰;孫偉杰;溫翰;許瑞晗 | 申請(專利權)人: | 北京深勢科技有限公司 |
| 主分類號: | G16B30/00 | 分類號: | G16B30/00;G16B40/00;G06N3/04 |
| 代理公司: | 北京漢智嘉成知識產權代理有限公司 11682 | 代理人: | 金潔;谷惠敏 |
| 地址: | 100080 北京*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 注意力 機制 抗體 非定序 預測 方法 裝置 | ||
本發明公開了基于注意力機制的抗體非定序預測方法和裝置。該方法包括:獲取抗體數據庫,其中抗體數據庫為針對特定問題的抗體序列數據集合;將抗體數據庫輸入非定序神經網絡模型進行訓練,直至得到訓練好的抗體非定序預測模型,其中非定序神經網絡模型為廣義自回歸預訓練注意力模型或者雙向生成式預訓練注意力模型;將待預測抗體信息輸入抗體非定序預測模型,得到待預測抗體的全部氨基酸序列的預測值或概率分布。本發明實現了對抗體氨基酸序列信息預測的非定序模型訓練,并且可以進一步將訓練好的模型應用在抗體改造當中,而且可以將模型中間結果作為特征向量用在多種抗體性質預測和改造任務當中,具有適用范圍廣、預測精度高,靈活簡便等優點。
技術領域
本發明涉及生物信息和深度學習領域,具體涉及一種基于注意力機制的抗體非定序預測方法和裝置。
背景技術
抗體是一類能與抗原特異性結合的免疫球蛋白,由兩條相同的重鏈(H鏈)、兩條相同的輕鏈(L鏈)組成,重鏈與重鏈之間、重鏈與輕鏈之間以二硫鍵相連,組成一個輕重鏈配對的對稱分子。重鏈和輕鏈是由兩個單獨的mRNA轉錄的產物,它們一起組裝成B細胞內質網中的全長免疫球蛋白分子。抗體和抗原的結合主要依靠抗體的互補決定區(CDR),包括重鏈CDR-H1、CDR-H2、CDR-H3,輕鏈CDR-L1、CDR-L2、CDR-L3,其中CDR-H3區域類型最為豐富,其余的骨架區域序列通常比較固定。所以在決定骨架區后,抗體親和力的優化通常聚焦于互補決定區,尤其是CDR-H3,其序列會同樣影響抗體的溶解度,表達量,免疫原性。人體自然生成抗體的速度非常緩慢,通過生物實驗的方法測試抗體的有效性是一個非常耗時的過程??贵w預測技術可以快速地篩選潛在抗體。
美國專利US2019/0065677A1中用傳統的卷積神經網絡(CNN)對噬菌體展示(phagedisplay)的結果進行訓練從而指導新的序列生成。另有技術團隊通過少量先導抗體變體(lead?antibody?variant)的數據訓練神經網絡,來對大規模生成的數據進行篩選(screening)來虛擬篩選抗體。但這些現有技術都有局限性,預測結果不理想。由于現有技術沒有使用在自然語言處理中表現較好的深度學習架構并且沒有考慮蛋白序列的內稟相互關聯本質,通常使用定序局部的模型,影響了模型綜合表現,尤其是在刻畫空間中很近而序列上相距較遠的相互作用的表現不夠理想。
發明內容
本發明主要提供了一種基于注意力機制的抗體非定序預測方法和裝置。
本發明第一方面提供的基于注意力機制的抗體非定序預測方法,包括:獲取抗體數據庫,其中所述抗體數據庫為針對特定問題的抗體序列數據集合;將所述抗體數據庫輸入非定序神經網絡模型進行訓練,直至誤差低于閾值或趨于穩定時停止訓練,得到所述訓練好的抗體非定序預測模型,其中所述非定序神經網絡模型為廣義自回歸預訓練注意力模型或者雙向生成式預訓練注意力模型;將待預測抗體信息輸入所述抗體非定序預測模型,得到所述待預測抗體的全部氨基酸序列的預測值或概率分布。
可選地,所述待預測抗體信息包括如下內容之一者或多者組合:所述待預測抗體的部分位點的氨基酸序列、所述待預測抗體的氨基酸序列長度、所述待預測抗體的多個同源蛋白質的氨基酸序列中氨基酸分布的概率信息。
可選地,所述非定序神經網絡模型包括至少一個編碼模型和至少一個解碼模型,并且,所述將待預測抗體信息輸入所述抗體非定序預測模型,得到抗體預測結果的步驟包括:將所述待預測抗體信息輸入所述編碼模型,經由所述編碼模型得到所述待預測抗體對應的中間結果;將所述待預測抗體信息以及所述中間結果共同輸入解碼模型,經由所述編碼模型得到所述待預測抗體對應的全部氨基酸序列的預測值。
可選地,所述注意力模塊的輸入由隨機設定預測順序的標簽數據確定,所述注意力模塊的輸出由全部標簽數據確定,其中,標簽數據是指整個抗體序列包含骨架區域與互補決定區或者單純互補決定區序列。
可選地,所述隨機設定預測順序的標簽數據使用掩膜方法屏蔽部分序列的信息,以預測被屏蔽部分的序列信息。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京深勢科技有限公司,未經北京深勢科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202210466987.0/2.html,轉載請聲明來源鉆瓜專利網。





