[發明專利]一種功能肽推薦方法、裝置和計算設備有效
| 申請號: | 202110080336.3 | 申請日: | 2021-01-21 |
| 公開(公告)號: | CN112786141B | 公開(公告)日: | 2023-07-14 |
| 發明(設計)人: | 王天元;翟珂;陳壯志;賴力鵬;溫書豪;馬健 | 申請(專利權)人: | 北京晶泰科技有限公司 |
| 主分類號: | G16H20/10 | 分類號: | G16H20/10;G16B40/30;G06N3/088 |
| 代理公司: | 北京思睿峰知識產權代理有限公司 11396 | 代理人: | 謝建云;趙愛軍 |
| 地址: | 100083 北京市海淀區中*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 功能 推薦 方法 裝置 計算 設備 | ||
1.一種功能肽推薦方法,適于在計算設備中執行,所述方法包括:
根據預先訓練的功能肽生成模型生成多個候選肽段;
采用預先訓練的功能肽預測模型對所述多個候選肽段進行處理,得到各候選肽段的性能分數,所述性能分數為與模型輸出概率值相對應的分數、或模型預測分數與預設打分規則的綜合值;以及
根據各候選肽段的性能分數確定至少一個目標肽段進行推薦,具體包括:根據預設的功能肽的至少一個理化性質的區間值,生成各候選肽段的至少一個理化性質標簽,根據各候選肽段的性能分數和至少一個理化性質標簽確定至少一個目標肽段進行推薦,其中,預設的功能肽的至少一個理化性質的區間值通過對多個已知活性肽進行統計得到。
2.如權利要求1所述的方法,其中,所述根據各候選肽段的性能分數和至少一個理化性質標簽確定至少一個目標肽段進行推薦的步驟包括:
根據各候選肽段的所述至少一個理化性質標簽對所述多個候選肽段進行過濾,得到過濾后的肽段;
根據所述過濾后的肽段的性能分數確定至少一個目標肽段進行推薦。
3.如權利要求2所述的方法,所述根據各候選肽段的性能分數和至少一個理化性質標簽確定至少一個目標肽段進行推薦的步驟包括:
根據各候選肽段的性能分數和至少一個理化性質標簽生成各候選肽段的評分等級;
根據該評分等級確定至少一個目標肽段進行推薦。
4.如權利要求1所述的方法,其中,通過對各肽段數據集的多種理化性質的區間分布進行可視化以及對不同數據集在某一種理化性質上的分布情況進行統計分析,生成所述理化性質標簽。
5.如權利要求1所述的方法,還包括所述功能肽生成模型的訓練步驟:
采用已知的多個多肽數據對初始的功能肽生成模型進行無監督訓練,得到預訓練模型,所述多條多肽數據包括功能肽和非功能肽;
采用已知的多個功能肽數據對所述預訓練模型進行遷移學習,得到所述預先訓練的功能肽生成模型。
6.如權利要求1所述的方法,還包括所述功能肽預測模型的訓練步驟:
生成多個已知肽段的至少一個矢量特征;
根據特征組合列表對所述多個已知肽段的至少一個矢量特征進行組合,分別得到多個樣本組合,每個樣本組合包括訓練集和對應的驗證集;
根據初始的功能肽預測模型在訓練集和驗證集上的交叉檢驗性能指標,選取最優樣本組合所對應的最優特征組合。
7.如權利要求6所述的方法,還包括:
根據所述最優樣本組合中的訓練集和驗證集對初始的功能肽預測模型進行超參數優化,并選取在訓練集和驗證集上均表現達標的至少一個候選模型;
將所述至少一個候選模型在測試集上作泛化能力測試,并根據泛化性能指標選取最優模型,作為所述預先訓練的功能肽預測模型。
8.如權利要求6所述的方法,其中,所述采用預先訓練的功能肽預測模型對所述多個候選肽段進行處理的步驟包括:
根據所述最優組合特征和所述多個候選肽段生成對應的待測樣本特征;
采用所述預先訓練的功能肽預測模型對所述待測樣本特征進行處理,得到每個候選肽段的預測結果。
9.如權利要求6所述的方法,其中,在生成多個已知肽段的至少一個矢量特征之前,還包括:
對輸入的所述多個已知肽段進行基于字符的過濾篩選和文本格式轉換,并輸出所述多個已知肽段的統計學描述。
10.如權利要求9所述的方法,其中,所述過濾篩選的規則包括以下至少一種:
文本格式為TXT格式或者FASTA格式、肽段序列中不包含非天然氨基酸、所有天然氨基酸均用大寫字符表示。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京晶泰科技有限公司,未經北京晶泰科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110080336.3/1.html,轉載請聲明來源鉆瓜專利網。





