[發明專利]一種基于化學元素知識圖譜的分子圖對比學習方法在審
| 申請號: | 202111181509.7 | 申請日: | 2021-10-11 |
| 公開(公告)號: | CN113990408A | 公開(公告)日: | 2022-01-28 |
| 發明(設計)人: | 陳華鈞;方尹;楊海宏;莊祥;陳卓 | 申請(專利權)人: | 浙江大學 |
| 主分類號: | G16C20/30 | 分類號: | G16C20/30;G16C20/70;G16C20/80;G06N3/04;G06K9/62;G06V10/74;G06V10/774 |
| 代理公司: | 杭州天勤知識產權代理有限公司 33224 | 代理人: | 曹兆霞 |
| 地址: | 310013 浙江*** | 國省代碼: | 浙江;33 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 化學元素 知識 圖譜 分子 對比 學習方法 | ||
1.一種基于化學元素知識圖譜的分子圖對比學習方法,其特征在于,包括以下步驟:
依據從化學元素周期表獲得的每個化學元素的所有化學屬性,構建化學元素知識圖譜,以建立化學元素之間的微觀化學聯系;
利用化學元素知識圖譜對分子圖進行圖增強,以獲得同時包含拓撲結構和化學領域知識的分子增強圖;
利用可插拔表示模型獲得分子圖和分子增強圖的圖表示;
采用硬負樣本挖掘技術選出與分子圖在分子指紋空間相似的其他分子圖作為負樣本,分子圖與其對應的分子增強圖組成正樣本對,分子圖分別與其對應的負樣本、負樣本對應的分子增強圖組成負樣本對,分子圖對應的分子增強圖分別與分子圖對應的負樣本、負樣本對應的分子增強圖組成負樣本對;
將正樣本對和負樣本對的圖表示映射到同一空間后,通過最大化正樣本對之間的一致性同時最小化負樣本對之間的一致性構建對比損失函數,利用對比損失函數優化可插拔表示模型參數和對比損失函數的超參數,優化結束后,得到參數確定的可插拔表示模型;
應用時,將參數確定的可插拔表示模型與非線性分類器形成預測模型并進行預測模型的參數微調,利用參數微調的預測模型進行分子圖的分子性質的預測。
2.根據權利要求1所述的基于化學元素知識圖譜的分子圖對比學習方法,其特征在于,所述化學屬性包括金屬性、周期性、族、狀態、原子量、電負性、熔點、沸點、電子親合能、電離能、半徑、硬度、模量、密度、導率、熱能、豐度;
構建的化學元素知識圖譜中,每個三元組為(屬性,關系,元素),即頭實體為屬性,尾實體為化學元素,關系為化學元素與屬性之間的關系。
3.根據權利要求1所述的基于化學元素知識圖譜的分子圖對比學習方法,其特征在于,利用化學元素知識圖譜對分子圖進行圖增強的過程包括:
對于分子圖中每個節點,節點表示原子或元素,在化學元素知識圖譜找到以節點作為尾實體的三元組,并將該三元組的頭實體作為新節點,該三元組的關系作為節點與新節點之間的連邊,對分子圖進行拓撲和增強,得到分子圖對應的分子增強圖。
4.根據權利要求1所述的基于化學元素知識圖譜的分子圖對比學習方法,其特征在于,所述可插拔表示模型為基于圖神經網絡構建的圖編碼模型,包括GCN、GAT、MPNN、CMPNN。
5.根據權利要求1所述的基于化學元素知識圖譜的分子圖對比學習方法,其特征在于,所述采用過硬負樣本挖掘技術選出與分子圖在分子指紋空間相似的其他分子圖作為負樣本的過程包括:
將分子圖轉換為分子指紋,采用谷本系數計算兩個分子指紋之間的相似度,當相似度大于設定閾值時,認為兩個分子指紋對應的兩個分子圖互為負樣本,即當一個分子圖為正樣本時,另一個分子圖為負樣本。
6.根據權利要求5所述的基于化學元素知識圖譜的分子圖對比學習方法,其特征在于,采用化學信息學工具Rdkit將分子轉化為分子指紋;所述分子指紋為Morgan指紋。
7.根據權利要求1所述的基于化學元素知識圖譜的分子圖對比學習方法,其特征在于,采用雙層MLP作為映射頭,利用該映射頭將將正樣本對和負樣本對的圖表示映射到同一空間。
8.根據權利要求1所述的基于化學元素知識圖譜的分子圖對比學習方法,其特征在于,構建的對比損失函數為:
其中,zi和z′i分別表示組成第i個正樣本對的第i個分子圖的圖表示和分子增強圖的圖表示,z′j表示與第i個分子圖構成負樣本對的第j個負樣本的圖表示或者負樣本對應的分子增強圖的圖表示,τ表示溫度參數,sim(·)為余弦相似度。
9.根據權利要求1所述的基于化學元素知識圖譜的分子圖對比學習方法,其特征在于,所述非線性分類器采用MLP,該MLP與參數確定的可插拔表示模型組成預測模型后,利用預測任務的小樣本分子圖對預測模型進行參數微調之后,利用參數微調的預測模型進行分子圖的分子性質的預測。
10.根據權利要求1所述的基于化學元素知識圖譜的分子圖對比學習方法,其特征在于,所述預測任務包括在血腦屏障滲透數據集中判斷分子是否具有滲透性,在化合物毒性數據集、基于體外高通量篩選的大型化合物毒理學數據集以及臨床實驗數據集中判斷分子是否具有毒性,在已上市藥物和藥物不良反應數據庫中判斷藥物是否具有副作用,在人類分泌酶BACE-1抑制劑數據集中判斷分子是否具有抑制性,對應的分子性質為滲透性、毒性、副作用和抑制性。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于浙江大學,未經浙江大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202111181509.7/1.html,轉載請聲明來源鉆瓜專利網。





