[發明專利]一種基于正則化變分自動編碼器的藥物分子生成方法有效
| 申請號: | 201911255006.2 | 申請日: | 2019-12-10 |
| 公開(公告)號: | CN110970099B | 公開(公告)日: | 2023-04-28 |
| 發明(設計)人: | 呂肖慶;李昕;張昊;湯幟 | 申請(專利權)人: | 北京大學 |
| 主分類號: | G16C20/50 | 分類號: | G16C20/50;G16C20/70 |
| 代理公司: | 北京萬象新悅知識產權代理有限公司 11360 | 代理人: | 黃鳳茹 |
| 地址: | 100871*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 正則 化變分 自動 編碼器 藥物 分子 生成 方法 | ||
本發明公布了一種基于正則化變分自動編碼器的藥物分子生成方法,將藥物分子表示為圖數據,利用變分自動編碼器框架,建立包括編碼器和解碼器的藥物分子生成模型;編碼器利用圖神經網絡直接對輸入的藥物分子圖進行編碼;解碼器采用多層感知機,優化目標包括重建損失、KL損失及性質正則化損失,其中性質正則化損失利用蒙特卡洛采樣進行估計。采用本發明技術生成的候選藥物分子有效性更高,分子的性質更優異。
技術領域
本發明涉及計算機人工智能與新藥分子設計的交叉技術領域,尤其涉及一種基于正則化變分自動編碼器的藥物分子生成方法,是一種基于圖神經網絡、深度生成模型和性質目標正則化的進行新藥分子設計的方法,適用于新藥發現過程中候選藥物分子的設計與生成。
背景技術
新藥研發耗資巨大、周期漫長且成功率很低。其中候選藥物分子的篩選是前期的關鍵環節,計算機輔助設計以及最新人工智能技術的引入,已經大幅度提升了分子篩選的效率。但傳統的計算機篩選方法大都針對已有的化合物,或基于結構或基于性質等特征對其進行篩選,新一代的新藥發現策略則開啟了直接設計全新分子的途徑。具體是指,針對某種疾病或靶點預設藥效等對新分子的期望屬性,根據已有相關藥物分子的結構,采用計算機模擬生成的計算方法設計全新的分子結構,所依據的原理是“相似的結構很可能具有相同的性質”,進而通過化學合成方法以人工方式合成新分子,并進一步在真實的化學、生物和人體等環境中檢測其藥效和其他物理化學性質,從而完成新藥的開發。該途徑可大幅縮短新藥研制和臨床試驗的時間,具有廣闊的應用前景。
在上述過程中,通過計算機模擬、生成具備特定生化性質的藥物分子是此類方法的關鍵。然而,現有藥物分子生成方法仍面臨一些挑戰。首先,潛在藥物分子的表示空間巨大,而且不連續,搜索藥物分子任務本身十分艱巨。有醫療文獻顯示,化學分子的表示空間范圍可達1023~1060。其次,分子結構和分子性質之間的對應關系十分微妙,難以進行準確的量化描述,即使結構十分接近的分子其生化性質也可能完全不同,即,對某些子結構的微小改動都可以導致性質的大幅改變。
現有分子生成方法一般采用SMILES(Simplified?molecular?input?line?entryspecification,簡化分子線性輸入規范)和分子指紋等字符串方式表示分子,并借助自然語言處理的方法來實現生成算法,此類方法的魯棒性較差,即微小的修改可能導致完全不合理的分子。同時,基于字符串的語法約束會對分子生成產生過多限制,給分子生成的優化過程造成負擔。在生成分子圖的任務中,一個關鍵的難點在于使得模型的學習目標包含高度復雜而不可微的分子性質度量,為了解決這個問題,目前有基于強化學習和基于貝葉斯優化等兩種方法。但是,基于強化學習的方法需要引入額外網絡,使得計算和收斂難度增大,同時很難設計合理的即時獎勵;基于貝葉斯優化的方法由于其兩階段的特性,使得性質目標的優化很大程度依賴于第一階段中所學模型的隱向量空間的光滑性。
發明內容
本發明提出了一種基于正則化變分自動編碼器的藥物分子生成方法。該方法采用圖(Graph)數據結構(圖矩陣)表示藥物分子,以變分自動編碼器作為基本生成框架,在此基礎上加入性質目標正則化項。利用圖數據結構表示藥物分子,在結構上,該模型包括編碼器和解碼器兩部分,其中編碼器利用圖神經網絡直接對輸入圖表示進行編碼,解碼器主要由多層感知機(多層全連接神經網絡)組成,優化目標包括重建損失,KL損失(Kullback-Leibler?Divergence,KL散度),以及性質正則化損失三部分。其中,性質正則化損失采用蒙特卡洛采樣進行估計。采用本發明方法可有效生成分子性質優化的候選藥物分子。
本發明方法直接形式化性質目標正則化項來促使模型學習高度復雜而不可微的性質度量,有效降低了網絡復雜度且無兩階段操作,對隱向量空間光滑性的依賴性降低,分子生成效果較優。
本發明的技術方案是:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京大學,未經北京大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201911255006.2/2.html,轉載請聲明來源鉆瓜專利網。





