[發明專利]一種基于正則化變分自動編碼器的藥物分子生成方法有效
| 申請號: | 201911255006.2 | 申請日: | 2019-12-10 |
| 公開(公告)號: | CN110970099B | 公開(公告)日: | 2023-04-28 |
| 發明(設計)人: | 呂肖慶;李昕;張昊;湯幟 | 申請(專利權)人: | 北京大學 |
| 主分類號: | G16C20/50 | 分類號: | G16C20/50;G16C20/70 |
| 代理公司: | 北京萬象新悅知識產權代理有限公司 11360 | 代理人: | 黃鳳茹 |
| 地址: | 100871*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 正則 化變分 自動 編碼器 藥物 分子 生成 方法 | ||
1.一種基于正則化變分自動編碼器的藥物分子生成方法,將藥物分子表示為圖數據,利用變分自動編碼器框架,建立包括編碼器和解碼器的藥物分子生成模型;編碼器利用圖神經網絡直接對輸入的藥物分子圖進行編碼;解碼器采用多層感知機,優化目標包括重建損失、KL損失及性質正則化損失,其中性質正則化損失利用蒙特卡洛采樣進行估計;包括以下步驟:
步驟1,構建有效藥物分子庫;藥物分子庫包括已知藥物分子結構信息和理化信息;
步驟2,搭建藥物分子生成模型,包括如下過程:
21)搭建藥物分子生成過程的基本模型,即變分自動編碼器,通過學習真實數據和隱向量的聯合概率分布實現分子生成;
構建藥物分子生成模型pθ(G|z),采用圖數據表示藥物分子,在變分推斷中,利用變分后驗qφ(z|G)來估計真實后驗,最大化藥物分子生成模型pθ(G|z)如下目標函數:
式(1)中,為藥物分子生成模型pθ(G|z)的目標函數;-DKL(qφ(z|G)||pθ(z))表示KL損失的相反數;表示重建損失的相反數;G為表示真實藥物分子的圖數據;z為G通過編碼器編碼得到的隱向量;pθ(G|z)為藥物分子生成模型;qφ(z|G)為變分后驗;下標ELBO表明該目標函數是證據因子的下界;DKL是KL散度;pθ(z)為先驗分布;φ為解碼器的參數;θ為編碼器的參數;表示關于概率分布qφ(z|G)的期望;
22)設計并實現基于圖數據結構的深度生成模型即藥物分子生成模型;
設計基于圖神經網絡的編碼器和基于圖數據結構解碼器,建立基于圖數據結構的深度生成模型即藥物分子生成模型;藥物分子生成模型包括編碼器和解碼器;具體地:
根據式(1),編碼器輸出一個矩陣和一個張量N為要生成分子包含的最大原子數,T為原子的類型數,R為邊的類型數,矩陣中的行為節點i的類型的概率分布,是節點i和節點j之間邊的類型的概率分布;
從中采樣得到一個分子圖G=(A,X),其中A由采樣得到,X由采樣得到;
編碼器的結構采用圖神經網絡,解碼器采用多層全連接神經網絡即多層感知機;
23)設計并實現藥物分子性質目標正則化方法,使得利用藥物分子生成模型可生成具有特定性質的分子;具體過程為:
設S是需要優化的藥物分子性質,將藥物分子性質關于分布pθ(G|z)的期望作為正則化項,表示為式(2):
其中,SG表示圖數據G對應的藥物分子的待優化的性質S,表示為式(3):
其中,O是所有子圖模式的集合,no是模式o在圖G中出現的次數,co是模式o每次出現對于該性質的貢獻;
根據公式(2)和(3)可得式(4):
式(4)中,表示性質S關于概率分布pθ(G|z)的期望,po是模式o出現的概率;
步驟3,對構建的藥物分子生成模型進行訓練;
藥物分子生成模型最大化如下目標函數
其中,為性質正則化損失;采用蒙特卡洛估計來計算的值;
通過上述訓練過程對藥物分子生成模型pθ(G|z)進行訓練,得到訓練好的藥物分子生成模型pθ(G|z);
步驟4,利用訓練好的藥物分子生成模型pθ(G|z),執行藥物分子生成流程,生成候選藥物分子;
設定藥物分子的待優化目標,利用上述從先驗分布pθ(z)中采樣再經過訓練后得到的訓練好的藥物分子生成模型pθ(G|z),即可生成具有所設定目標優化性質的候選藥物分子;
步驟5,對生成的候選藥物分子可進行藥物分子性質檢測和可合成性評估,進一步確認其有效性;
通過上述步驟,實現一種基于正則化變分自動編碼器的藥物分子生成。
2.如權利要求1所述基于正則化變分自動編碼器的藥物分子生成方法,其特征是,藥物分子的理化信息包括LogP和可合成性。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京大學,未經北京大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201911255006.2/1.html,轉載請聲明來源鉆瓜專利網。





