[發明專利]基于拓撲機器學習的有機化學合成智能分析方法在審
| 申請號: | 202211425974.5 | 申請日: | 2022-11-14 |
| 公開(公告)號: | CN115910225A | 公開(公告)日: | 2023-04-04 |
| 發明(設計)人: | 李謙;郭艷慧;王巖;彭李超;楊曉慧 | 申請(專利權)人: | 河南大學 |
| 主分類號: | G16C20/10 | 分類號: | G16C20/10;G16C20/70;G06F18/23;G06N5/01;G06N20/20 |
| 代理公司: | 鄭州優盾知識產權代理有限公司 41125 | 代理人: | 鄭園 |
| 地址: | 450046 河南省*** | 國省代碼: | 河南;41 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 拓撲 機器 學習 有機 化學合成 智能 分析 方法 | ||
1.一種基于拓撲機器學習的有機化學合成智能分析方法,其特征在于,其步驟如下:
步驟一:拓撲特征的獲取:通過拓撲數據分析對三維結構描述符進行拓撲不變量的提取,
獲取拓撲特征,并將三維結構描述符與拓撲特征級聯;
步驟二:智能預測:通過LightGBM算法對級聯后的特征進行訓練和預測,利用網格搜索法獲取LightGBM算法的最佳參數以得到LightGBM模型,并利用LightGBM模型預測化學反應產率;
步驟三:產率和反應條件的相關性分析:根據化學反應產率利用拓撲數據分析對級聯后的特征進行聚類分析,挖掘出產率和反應條件之間的關系。
2.根據權利要求1所述的基于拓撲機器學習的有機化學合成智能分析方法,其特征在于,步驟一的實現方法為:
S1.1、將三維結構描述符導入到拓撲數據分析中生成持續性圖,然后通過相關方法矢量化持續性圖,輸出拓撲特征;
S1.2、將三維結構描述符和拓撲特征級聯,并將級聯后的特征與產率一一對應后分為訓練集和測試集。
3.根據權利要求1所述的基于拓撲機器學習的有機化學合成智能分析方法,其特征在于,步驟S1.1中拓撲結構的具體計算過程為:
S1.1.1、將三維描述符信息導入到拓撲數據分析算法中,將其中的拓撲信息轉化為持續性圖;
S1.1.2、通過持續性圖來記錄每一個拓撲不變量的變化;
其中,持續性圖是將持續同調分析的結果表示為成對的誕生時間和消亡時間,橫軸和表示的是拓撲不變量的誕生時的過濾值,縱軸表示的是拓撲不變量的消亡時的過濾值,用bα記錄每一個拓撲不變量在過濾軸上誕生的位置,用dα記錄每一個拓撲不變量在過濾軸上消亡的位置,則pα=dα-bα表示每一個拓撲不變量的生存周期;
S1.1.3、通過對持續性圖的矢量化獲取拓撲特征:連接組件H0、循環結構H1和空洞結構H2的真實持續存在的數量、連接組件H0、循環結構H1和空洞結構H2的平均生存期及持續熵;其中,持續熵D={(bα,dα)}α∈A,持續熵D是根據計算得到的,
4.根據權利要求2所述的基于拓撲機器學習的有機化學合成智能分析方法,其特征在于,所述LightGBM模型的實現方法為:將步驟S1.2得到的訓練集和測試集的數據導入到LightGBM算法中,利用網格搜索法對LightGBM算法中的多個參數的可能取值進行排列組合,通過計算LightGBM算法中每次迭代的損失函數值,直至損失函數值收斂到最小,輸出預測結果以及對應的參數值,最后選取最好的預測結果所對應的參數并保存LightGBM模型。
5.根據權利要求4所述的基于拓撲機器學習的有機化學合成智能分析方法,其特征在于,LightGBM算法的目標函數為:
其中,是線性空間上的損失函數;i是第i個樣本;是第i個樣本xi的預測值:
是第k棵樹,K為樹的數量;yi是真實值;
fk(xi)表示每棵樹對第i個樣本xi的得分。
6.根據權利要求1所述的基于拓撲機器學習的有機化學合成智能分析方法,其特征在于,步驟三的實現方法為:
S3.1、根據分位數的統計概念,將化學反應產率分為低產率和高產率兩類;
S3.2、將步驟S1.2得到的級聯后的特征導入到拓撲數據分析中,用戶根據數據特性,自行調節相鄰的濾波值區間的間隔和重疊區間,并設置單鏈接聚類直方圖間隔數,獲得最佳聚類結果;
S3.3、根據步驟S3.2中的聚類結果,分析每一簇樣本中的反應條件,然后對比分析,得出高產率對應的反應條件。
7.根據權利要求6所述的基于拓撲機器學習的有機化學合成智能分析方法,其特征在于,步驟S3.2的實現方法為:
S3.2.1、利用距離矩陣的中心度指標L-infinity對每個數據點計算一個濾波值:
其中,d為原始數據,len(d)表示樣本量,n表示特征個數,d[j]表示第j個樣本,d[j][0]表示第j個樣本的第1個特征;
S3.2.2、將數據點按照濾波值L-infinity從小到大分到不同的濾波值區間里;相鄰的濾波值區間設置有重疊區域,其中,相鄰的濾波值區間的間隔為N,重疊區間為P;
S3.2.3、使用單鏈接集群對每個濾波值區間里的數據進行聚類;
S3.2.4、把各濾波值區間聚類的得到的小類放在一起,每一個小類用圓表示;若兩個類之間存在相同的原始數據點,則在它們之間加上一條邊。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于河南大學,未經河南大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202211425974.5/1.html,轉載請聲明來源鉆瓜專利網。





