[發明專利]一種基于變分自編碼器和消息傳遞神經網絡的分子圖生成方法在審
| 申請號: | 202110597729.1 | 申請日: | 2021-05-31 |
| 公開(公告)號: | CN113327651A | 公開(公告)日: | 2021-08-31 |
| 發明(設計)人: | 裴文江;蔣冰越;夏亦犁 | 申請(專利權)人: | 東南大學 |
| 主分類號: | G16C20/50 | 分類號: | G16C20/50;G16C20/70;G06N3/04 |
| 代理公司: | 南京瑞弘專利商標事務所(普通合伙) 32249 | 代理人: | 孫峰 |
| 地址: | 211189 江*** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 編碼器 消息 傳遞 神經網絡 分子 生成 方法 | ||
本發明公開了一種基于變分自編碼器和消息傳遞神經網絡的分子圖生成方法,以進行分子生成和分子目標特性優化;本發明采用了消息傳遞神經網絡構建到變分自編碼器的編碼器和解碼器中,進一步減少了訓練過程的運行時間和占用內存;另外,通過構造變分自編碼器的潛在空間,以允許優化分子性質;在QM9化學數據庫上的分子生成實驗中,該模型能夠生成100%有效的化合物,并且新穎率和唯一率也很高;在QM9化學數據庫上的目標優化實驗中,能夠進一步優化目標特性。
技術領域
本發明涉及分子圖生成技術領域,特別是涉及一種基于變分自編碼器和消息傳遞神經網絡的分子圖生成方法。
背景技術
在現代社會,材料化學中新分子探索已經成為熱門話題,而材料創新是許多近期技術進步的關鍵驅動力。材料創新是許多近期技術進步的關鍵驅動力。從清潔能源到航空航天業或藥物開發,化學和材料科學領域的研究一直在不斷發展,以開發出具有新穎用途、更低成本和更好性能的化合物。
在最高的抽象層次上,分子的設計被表述為一個組合優化問題,以便在廣闊的化學空間中找到最佳解決方案。藥物發現和材料科學中的許多重要問題都是基于設計具有特定期望性質的分子結構的原則。然而,由于化學空間的巨大,這仍然是一個具有挑戰性的任務。一個藥物化學家,或者說一個全新的分子設計軟件,都面臨一個幾乎無限的搜索空間,這個搜索空間是巨大的,由于它的離散性,在這個空間中尋找目標化合物分子是非常困難的。
盡管在高通量篩選技術上取得了巨大的進步,但在如此大的空間中進行窮舉搜索是不可能的。全新設計過程中的導航不是系統地構建和評估每個個體,而是依賴于局部優化的原則,這并不一定會導致全局最優解。
發明內容
有鑒于此,本發明的目的在于提供一種基于變分自編碼器和消息傳遞神經網絡的分子圖生成方法,用以完成分子生成任務以及分子目標優化任務。
為了實現上述目的,本發明采用如下技術方案:
一種基于變分自編碼器和消息傳遞神經網絡的分子圖生成方法,包括如下步驟:
步驟S1、構建藥物分子庫;
步驟S2、利用變分自編碼器框架,建立包括編碼器和解碼器的藥物分子生成模型;
步驟S3、將所述藥物分子庫輸入至所述藥物分子生成模型中進行訓練,得到訓練好的藥物分子生成模型;
步驟S4、利用步驟S3中訓練好的藥物分子生成模型,執行分子生成流程,生成候選分子;
步驟S5、對步驟S4中得到的候選分子進行性質檢測。
進一步的,所述步驟S1具體包括:獲取QM9數據集,從該數據集中獲取多種已知藥物分子的信息,通過該信息建立所述藥物分子庫,該系統包括結構信息和理化信息,其中,所述藥物分子表示為圖數據,所述藥物分子的結構信息包括圖中的節點和邊,所述理化信息包括分子的脂水分配系數的對數值、類藥性和可合成性。
進一步的,所述步驟S2具體包括:
步驟S201、搭建藥物分子生成過程的基本模型,即變分自編碼器,通過學習真實數據和隱向量的聯合概率分布實現分子生成,具體包括:
構建藥物分子生成模型pθ(G|z),采用圖數據表示藥物分子,在變分推斷中,利用變分后驗qφ(z|G)來估計真實后驗,最大化藥物分子生成模型pθ(G|z)的目標函數,表達式為:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于東南大學,未經東南大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110597729.1/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種家具生產用管材切角設備
- 下一篇:一種電子郵件的處理方法及裝置





