[發明專利]一種分子序列的生成方法、裝置和計算設備有效
| 申請號: | 202010124314.8 | 申請日: | 2020-02-27 |
| 公開(公告)號: | CN111370074B | 公開(公告)日: | 2023-07-07 |
| 發明(設計)人: | 范方達;李遠鵬;賴力鵬;溫書豪;馬健 | 申請(專利權)人: | 北京晶泰科技有限公司 |
| 主分類號: | G16C20/50 | 分類號: | G16C20/50;G06N3/044;G06N3/047;G06N3/096 |
| 代理公司: | 北京思睿峰知識產權代理有限公司 11396 | 代理人: | 謝建云;趙愛軍 |
| 地址: | 100083 北京市海淀區中*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 分子 序列 生成 方法 裝置 計算 設備 | ||
1.一種分子序列的生成方法,適于在計算設備中執行,包括:
步驟1:構建用于生成局部序列的搜索樹,初始的局部序列為位于根節點上的空字符,并將所述初始的局部序列設置為當前局部序列;
步驟2:從當前局部序列延伸多個分支,采用當前存儲的分子生成模型在每個分支上生成一個完整的分子序列,并計算每個分子序列的得分;
步驟3:選取得分最高的分子序列,若該分子得分大于當前目標得分,則將該分子序列作為新目標分子,將該分子得分作為新目標得分;
步驟4:確定當前局部序列在新目標分子中的下一字符,并在當前局部序列后添加該下一字符,以得到新局部序列;
步驟5:將所述新局部序列設置為當前局部序列,并循環執行上述步驟2-步驟4,直至沒有新目標分子生成、且搜索樹的局部序列與最終的目標分子相同為止。
2.如權利要求1所述的方法,還包括:
步驟6:獲取所述搜索樹生成的多個目標分子,并從每個目標分子的起始字符開始提取多個局部序列,分別構成多個第一訓練樣本,對應的第一樣本標簽為該局部序列的下一字符;以及
步驟7:基于所述第一訓練樣本對所述當前存儲的分子生成模型進行訓練,并將所述當前存儲的分子生成模型更新為訓練后的分子生成模型。
3.如權利要求2所述的方法,其中,在步驟6之前,還包括步驟:
構建多棵具有不同抽樣溫度的搜索樹,對每棵搜索樹都執行步驟1-5,以分別得到每棵搜索樹在對應抽樣溫度下的目標分子。
4.如權利要求2或3所述的方法,還包括:
步驟8:基于每次更新后的分子生成模型,循環執行步驟1-7來構建搜索樹、生成目標分子、生成訓練樣本來訓練模型,直至訓練后的分子生成模型生成的分子序列得分達到終止條件為止。
5.如權利要求1-3中任一項所述的方法,其中,所述步驟3還包括:
若該分子得分小于等于當前目標分子,則保持原目標分子和原目標得分不變。
6.如權利要求4所述的方法,其中,所述步驟3還包括:
若該分子得分小于等于當前目標分子,則保持原目標分子和原目標得分不變。
7.如權利要求2所述的方法,其中,所述分子生成模型為基于深度神經網絡的模型,包括:
輸入層,為全連接層,用于接收用戶輸入的由一個或多個字符構成的局部序列,所述字符共m種;
循環層,包括三層門控循環單元和一層堆棧層;以及
策略網絡層,為全連接層,用于基于循環層的狀態計算該局部序列的下一字符的概率分布,并輸出多個完整分子。
8.如權利要求7所述的方法,其中,所述循環層為堆棧式增強循環網絡。
9.如權利要求7所述的方法,其中,所述分子生成模型還包括:
價值網絡層,為全連接層,用于輸出每個完整分子的得分,其輸出維度為p維,代表有p種得分。
10.如權利要求9所述的方法,所述步驟7還包括:
將計算得到的每個分子序列的得分作為第二樣本標簽,對包含所述價值網絡層的分子生成模型進行訓練,得到訓練后的分子生成模型。
11.如權利要求10所述的方法,其中,所述分子序列的得分包括蛋白質與該分子序列的結合能得分、該分子序列與原研藥分子的相似性得分、分子活性得分中的至少一種。
12.如權利要求1-3中任一項所述的方法,其中,所述分子序列采用簡化分子輸入線性規范表示,對應的分子字符為該簡化分子輸入線性規范表示中的字符。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京晶泰科技有限公司,未經北京晶泰科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010124314.8/1.html,轉載請聲明來源鉆瓜專利網。





