[發明專利]適用于含能化合物數據挖掘的方法及系統在審
| 申請號: | 202211352817.6 | 申請日: | 2022-11-01 |
| 公開(公告)號: | CN115691699A | 公開(公告)日: | 2023-02-03 |
| 發明(設計)人: | 楊春明;田杰;劉建 | 申請(專利權)人: | 西南科技大學;中國工程物理研究院化工材料研究所 |
| 主分類號: | G16C20/30 | 分類號: | G16C20/30;G16C10/00;G16C20/60;G16C20/70 |
| 代理公司: | 成都九鼎天元知識產權代理有限公司 51214 | 代理人: | 周浩杰 |
| 地址: | 621000 四川*** | 國省代碼: | 四川;51 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 適用于 化合物 數據 挖掘 方法 系統 | ||
本發明公開了一種適用于含能化合物數據挖掘的方法及系統,屬于化學信息學計算中含能化合物構效關系技術領域,包括步驟:S1,數據預處理;S2,提取分子拓撲結構特征和量子化學計算的特征,生成指紋普特征;S3,計算皮爾森相關性和信息熵,篩選出線性相關與非相信相關的特征,進行特征降維,刪除特征之間線性相關性高于設定值的冗余特征;S4,知識挖掘與模型驗證,發掘特征庫之間的相關性與知識關聯。本發明可以對含能材料按照骨架和基團進行數據分類,挖掘多維度的線性特征和非線性特征,將更多基于化學專業知識的特征嵌入圖結構模型訓練過程,利用本發明的數據挖掘引擎能夠篩選出強關聯的分子特征,可以彌補現有模型的不足。
技術領域
本發明涉及化學信息學計算中含能化合物構效關系技術領域,更為具體的,涉及一種適用于含能化合物數據挖掘的方法及系統。
背景技術
含能材料是一類含有爆炸性基團或含有氧化劑和可燃物、能獨立進行化學反應并輸出能量的化合物或混合物,是軍用炸藥、發射藥和火箭推進劑配方的重要組成部分,在國防、航天、民用都有廣泛的應用。由于此類材料的實驗合成存在危險和成本高昂的問題,并且實際應用中對感度和能量性質都有很高的要求(低感度:熱穩定性好,機械感度低;爆轟性能:爆壓、爆速、爆熱等性質優秀),所以從理論計算入手加快含能材料的研發具有很高的研究價值。
自上世紀50年代以來,利用電子計算機的數值模擬興起,基于密度泛函理論的計算能夠準確可靠的模擬分子構象,這大大加快了含能材料的研究進展。然而這類的分子模擬計算過程繁瑣并耗時長,消耗大量的計算成本,構建更快更精確的構效關系預測模型亟待解決。
本世紀以來,計算機的性能大大增強,與此相對應的是數據的快速增長,從而促進了大數據和人工智能技術的發展。現有的機器學習方法在含能材料的各種重要性質方面早有諸多應用,最前沿的研究以分子圖作為輸入圖神經網絡取得了巨大的模型性能提升。但含能材料領域一是存在數據樣本緊缺,數據分布不均的問題,二則是某些化學性質例如分解、爆燃過程涉及復雜的反應機理,需要更多基于化學專業知識的特征嵌入圖結構模型訓練的過程。因此,通過數據挖掘引擎篩選出強關聯的分子特征,用于彌補現有模型的不足成為此領域研究的關鍵。本發明技術方案旨在對上述技術問題提出解決方案。
發明內容
本發明的目的在于克服現有技術的不足,提供一種適用于含能化合物數據挖掘的方法及系統,解決了背景中的問題:讓數據分布均勻、同時擁有更多基于化學專業知識的特征嵌入圖結構模型訓練過程。利用本發明的數據挖掘引擎能夠篩選出強關聯的分子特征,可以彌補現有模型的不足。
本發明的目的是通過以下方案實現的:
一種適用于含能化合物數據挖掘的方法,包括以下步驟:
S1,數據預處理:獲取含能分子結構和其對應的物理化學屬性值,根據組分和結構的篩選條件,篩選組分中僅含CHON四種元素的化合物,結構上含有硝基的單分子的電中性化合物,且分子中原子數量小于設定范圍,將篩選結果進行去重后進行編碼存儲,作為數據集;再將數據集按照硝基鍵連化學環境的類型分類,構造類型均勻分布的訓練集和測試集;
S2,計算特征:分別提取預處理后的分子拓撲結構特征和量子化學計算的特征,生成指紋普特征,構建特征庫,針對不同的材料屬性,建立多個分子特征庫,一個特征庫包含計算得到的所有特征;包括以下類型:采用Rdkit工具提取的分子2D結構特征、本發明定義的與含能材料領域相關的分子拓撲結構特征、采用量子化學計算得到的特征,完成構建特征庫;
S3,篩選特征:計算皮爾森相關性和信息熵,篩選出線性相關與非相信相關的特征,用遞歸特征消除RFECV的方法進行特征降維,刪除特征之間線性相關性高于設定值的冗余特征;
S4,知識挖掘與模型驗證:發掘特征庫之間的相關性與知識關聯,從專家知識角度驗證屬性與特征的強相關性,拼接指紋普特征作為機器學習模型的輸入,調整參數,在不同的模型上采用交叉驗證的方法驗證和評估特征,得到最優定量結構-性質關系QSPR模型,用于含能化合物數據挖掘。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于西南科技大學;中國工程物理研究院化工材料研究所,未經西南科技大學;中國工程物理研究院化工材料研究所許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202211352817.6/2.html,轉載請聲明來源鉆瓜專利網。
- 數據顯示系統、數據中繼設備、數據中繼方法、數據系統、接收設備和數據讀取方法
- 數據記錄方法、數據記錄裝置、數據記錄媒體、數據重播方法和數據重播裝置
- 數據發送方法、數據發送系統、數據發送裝置以及數據結構
- 數據顯示系統、數據中繼設備、數據中繼方法及數據系統
- 數據嵌入裝置、數據嵌入方法、數據提取裝置及數據提取方法
- 數據管理裝置、數據編輯裝置、數據閱覽裝置、數據管理方法、數據編輯方法以及數據閱覽方法
- 數據發送和數據接收設備、數據發送和數據接收方法
- 數據發送裝置、數據接收裝置、數據收發系統、數據發送方法、數據接收方法和數據收發方法
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置





