[發明專利]基于多任務膠囊自編碼器神經網絡的全新分子生成方法有效
| 申請號: | 202011247808.1 | 申請日: | 2020-11-10 |
| 公開(公告)號: | CN112270951B | 公開(公告)日: | 2022-11-01 |
| 發明(設計)人: | 鄒俊;楊勝勇;李侃;楊欣 | 申請(專利權)人: | 四川大學 |
| 主分類號: | G16B15/30 | 分類號: | G16B15/30;G06K9/62;G06N3/04;G06N3/08 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 610065 四*** | 國省代碼: | 四川;51 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 任務 膠囊 編碼器 神經網絡 全新 分子 生成 方法 | ||
1.一種基于多任務膠囊自編碼器神經網絡的全新分子生成方法,其特征在于:將藥物分子表示為SMILES(簡化分子線性輸入規范),標記目標性質標簽,利用自編碼器框架,建立包括編碼器、多任務膠囊分類器和解碼器的全新分子生成模型;編碼器利用雙向長短期記憶網絡將藥物分子SMILES編碼為固定長度的向量;多任務膠囊分類器采用雙層膠囊層優化Margin Loss,編碼并預測藥物分子的性質標簽;解碼器利用長短期記憶網絡對隱藏層向量進行解碼,實現輸入與輸出的重構;
包括以下步驟:
步驟1:收集訓練數據,提取分子獨熱(one-hot)編碼表,計算性質標簽;
步驟2:通過訓練階段學習已知藥物分子的特征,得到訓練模型;
步驟3:通過重構階段,利用訓練模型重構分子;
步驟4:通過生成階段,利用訓練模型生成特定性質分子。
2.如權利要求1所述的一種基于多任務膠囊自編碼器神經網絡的全新分子生成方法,其特征在于,所述步驟1具體包括:
收集藥物分子,建立特定的數據集;
采用SMILES(簡化分子線性輸入規范)表示藥物分子;
計算或收集藥物分子目標性質數據,如果數據是定量表示,選擇合理的閾值轉為定性表示,即目標性質=1;非目標性質=0;所有分子描述符的計算通過開源PaDEL-Descriptor、RDKit或Discovery Studio程序完成;
訓練數據同時包含藥物分子SMILES和特定的性質標簽。
3.如權利要求1所述的一種基于多任務膠囊自編碼器神經網絡的全新分子生成方法,其特征在于,所述步驟2具體包括:
將訓練數據輸入多任務膠囊自編碼器神經網絡進行訓練;
多次手動調整模型的學習率、神經元數目和訓練步數超參數,保留交叉熵損失函數值最小的訓練模型;
保留多次訓練過程中最佳的模型作為預訓練模型。
4.如權利要求1所述的一種基于多任務膠囊自編碼器神經網絡的全新分子生成方法,其特征在于,所述步驟3具體包括:
運行訓練模型,編碼器將訓練數據批量編碼為固定長度的向量
解碼器將固定長度的向量解碼為重構分子數據;
通過重構分子數據計算重構率;
保存重構的分子數據。
5.如權利要求1所述的一種基于多任務膠囊自編碼器神經網絡的全新分子生成方法,其特征在于,所述步驟4具體包括:
運行訓練模型,編碼器將訓練數據批量編碼為固定長度的向量;
多任務膠囊分類器編碼并預測訓練分子的性質;
對目標性質分子的向量表示進行數據增強,得到新的向量分布;
解碼器將新的向量分布解碼為生成分子數據;
多次手動調試數據增強過程的超參數,保留最佳生成結果;
當生成的分子達到預先設定的分子數量時,保存生成的分子數據。
6.如權利要求5所述的一種基于多任務膠囊自編碼器神經網絡的全新分子生成方法,其特征在于,所述的多任務膠囊自編碼器神經網絡包括編碼器、多任務膠囊分類器和解碼器,所述的訓練數據作為編碼器的輸入,所述編碼器的輸出作為多任務膠囊分類器的輸入;所述多任務膠囊分類器的輸出作為解碼器的輸入。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于四川大學,未經四川大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011247808.1/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種背壓系統
- 下一篇:一種機臺污染監測裝置及加工設備





