[發明專利]一種基于向量相似性檢索的蛋白質功能預測方法在審
| 申請號: | 202310069208.8 | 申請日: | 2023-02-06 |
| 公開(公告)號: | CN116092579A | 公開(公告)日: | 2023-05-09 |
| 發明(設計)人: | 王輝;郭貴冰;原發杰 | 申請(專利權)人: | 東北大學;西湖大學 |
| 主分類號: | G16B20/00 | 分類號: | G16B20/00;G16B40/00;G16B50/30;G06F18/22;G06F18/23;G06F18/214;G06F18/24;G06N3/048;G06N3/0499 |
| 代理公司: | 沈陽東大知識產權代理有限公司 21109 | 代理人: | 李珉 |
| 地址: | 110819 遼寧*** | 國省代碼: | 遼寧;21 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 向量 相似性 檢索 蛋白質 功能 預測 方法 | ||
本發明提供一種基于向量相似性檢索的蛋白質功能預測方法,涉及深度學習和蛋白質功能預測技術領域。該方法首先獲取蛋白質數據集并進行預處理后按比例劃分為訓練集、驗證集和測試集;然后構建蛋白質功能預測網絡模型,訓練蛋白質的向量表征;并進行蛋白質功能預測網絡模型的預訓練;再通過向量相似性檢索對測試集中的蛋白質進行功能預測;最后,針對下游蛋白質功能分類任務對蛋白質功能預測網絡模型進行模型遷移,進而實現對不同類別的蛋白質功能分類。該方法提出的蛋白質功能預測網絡模型可以有效的將相同功能蛋白質的語義表示在向量空間聚類在一起,使用向量相似性檢索來做蛋白質功能分類任務,解決了Softmax函數做類別分類的弊端。
技術領域
本發明涉及深度學習和蛋白質功能技術領域,尤其涉及一種基于向量相似性檢索的蛋白質功能預測方法。
背景技術
蛋白質是組成生物體的基本物質和生命的載體,一切生命活動都是通過蛋白質的功能來行使的。蛋白質由氨基酸序列組成,通過折疊形成復雜的三維構象以行使其生物學功能,了解蛋白質“序列-結構-功能”之間的關系是蛋白質生物學的核心問題,對于了解疾病機制和設計用于醫療與生物工程應用的蛋白和藥物至關重要。理論和實踐證明蛋白質的結構和功能信息都隱藏在蛋白質的氨基酸序列中,因此,直接通過蛋白質的氨基酸序列去預測蛋白質功能成為了可能。但是“序列-功能”關系的復雜性持續挑戰這我們的計算建模能力,截止到2022年3月,UniProt序列數據庫2.8億條蛋白質序列,但是其中只有56萬(約0.2%)的蛋白質序列是由專家管理員手工審核和注釋具有明確的功能。公共數據庫中的蛋白質序列呈爆發式增長,然而,由于生物學實驗成本高、耗時長,蛋白質功能分析的進展相對緩慢,因此,生物信息學領域急需高通量、高質量的蛋白質功能注釋工具。
由于蛋白質功能是其氨基酸序列的直接結果,因此25年時間以來,人們一直利用初級序列之間的相似性來系統地推斷其功能,例如BLAST工具等,雖然通常有用,但簡單的相似性測量往往不足以確定蛋白質的功能,高度不同的蛋白質序列有時也具有相似的功能,甚至單個氨基酸的變化都可以完全消除蛋白質的功能。之后,更復雜的統計模型Profile隱馬爾可夫模型(Profile?Hidden?Markov?Model,簡稱pHMM)被開發來解決這些挑戰,代表性的工具有:HAMMER,HHblits等,雖然這些方法非常有益,但往往缺乏通用性,每個pHMM模型通常是在給定蛋白質家族(protein?family)手工排列的序列上進行訓練,而沒有利用其他蛋白質家族或者其他注釋的信息,這導致訓練后的Profile隱馬爾可夫模型具有非常高的特異性,從而沒有能力檢測功能相關但是序列不同的蛋白質,并且這些方法需要大量計算才能大規模運行,這對于注釋蛋白質數據庫或者宏基因組來說是一個巨大的挑戰。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于東北大學;西湖大學,未經東北大學;西湖大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202310069208.8/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種全自動高速高精芯片封裝機
- 下一篇:基于隧道小水電用沉砂池的底砂處理裝置





