[發明專利]一種基于主動學習的材料數據集篩選方法及系統在審
| 申請號: | 202210036212.X | 申請日: | 2022-01-13 |
| 公開(公告)號: | CN114386512A | 公開(公告)日: | 2022-04-22 |
| 發明(設計)人: | 錢權;陳水洲 | 申請(專利權)人: | 上海大學 |
| 主分類號: | G06K9/62 | 分類號: | G06K9/62;G06N20/00 |
| 代理公司: | 北京方圓嘉禾知識產權代理有限公司 11385 | 代理人: | 程華 |
| 地址: | 200444*** | 國省代碼: | 上海;31 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 主動 學習 材料 數據 篩選 方法 系統 | ||
本發明涉及一種基于主動學習的材料數據集篩選方法及系統,所述擴充方法包括:抽取未檢測的數據池中的不同材料數據對初始訓練數據池進行擴充,獲得多個擴充得到的訓練數據池及多個訓練得到的基線模型,作為初步篩選結果;從所述初步篩選結果中,選取性能參數最優的訓練得到的基線模型和性能最優的訓練得到的基線模型對應的擴充得到的訓練數據池作為數據集篩選結果。本發明基于主動學習的思想,利用不同種類的擴充后數據進行模型訓練,并根據模型訓練結果,確定擴充后數據的優劣,實現了精準的篩選文獻數據中的可靠數據,以對實驗數據擴充,進而提高訓練的性能預測模型的性能。
技術領域
本發明涉及新材料研發技術領域,特別是涉及一種基于主動學習的材料數據集篩選方法及系統。
背景技術
在材料科學研究中經常需要對新設計的材料進行性能預測(如負熱膨脹系數等),用來評估該材料的實際應用價值。在材料科學領域的此類性能預測過程中,每一個新材料的實驗耗費較大,獲得真實的實驗數據困難。現階段,用機器學習的方法可以通過擬合已有數據來預測未知材料的性能,為材料科學提供指導。而為達到機器學習模型需要的數據量常見的方法是從文獻數據中獲得,這就會出現不可避免的不可靠數據,傳統的機器學習處理手段是將這些文獻數據進行數據清洗,刪掉分布和真實實驗數據相差較遠的點,再用機器學習模型調參擬合,但這樣的傳統方法一般表現的結果很差。如何篩選文獻數據中的可靠數據,以對實驗數據擴充,進而提高訓練的性能預測模型的性能,成為一個亟待解決的技術問題。
發明內容
有鑒于此,本發明提供了一種基于主動學習的材料數據集篩選方法及系統,以實現精準的篩選文獻數據中的可靠數據,以對實驗數據擴充,進而提高訓練的性能預測模型的性能。
為實現上述目的,本發明提供了如下方案:
一種基于主動學習的材料數據集篩選方法,所述篩選方法包括如下步驟:
抽取未檢測的數據池中的不同材料數據對初始訓練數據池進行擴充,獲得多個擴充得到的訓練數據池及多個訓練得到的基線模型,作為初步篩選結果;所述訓練得到的基線模型為利用擴充得到的訓練數據池對基線模型進行訓練獲得的;
從所述初步篩選結果中,選取性能參數最優的訓練得到的基線模型和性能最優的訓練得到的基線模型對應的擴充得到的訓練數據池作為數據集篩選結果。
可選的,所述抽取未檢測的數據池中的不同材料數據對初始訓練數據池進行擴充,獲得多個擴充得到的訓練數據池及多個訓練得到的基線模型,作為初步篩選結果;所述訓練得到的基線模型為利用擴充得到的訓練數據池對基線模型進行訓練獲得的,具體包括:
滑動窗口j在未檢測的數據池中選取材料數據,得到多個數據候選塊,并將多個所述數據候選塊添加至候選集合;
將候選集合中的每個數據候選塊分別添加至第m次擴充后的訓練數據池中,獲得多個第m+1次擴充后的訓練數據池;
利用第m+1次擴充得到的訓練數據池對基線模型進行訓練,獲得第m+1次訓練后的基線模型,并計算第m+1次訓練后的基線模型的性能得分,得到n個加入數據候選塊后的第m+1次擴充后訓練數據池的性能得分;
選取性能得分最高的擴充后的訓練數據池,作為第m+1次擴充得到的訓練數據池,選取性能得分最高的訓練后的基線模型作為第m+1次訓練得到的基線模型,并將性能得分最高的擴充后的訓練數據池中添加的數據候選塊從所述候選集合中刪除;
判斷訓練得到的基線模型的性能得分連續下降的次數超過第一預設閾值,獲得第一判斷結果;
若所述第一判斷結果表示否,則令m的數值增加1,清空所述候選集合,調用訓練數據池擴充子模塊;
若所述第一判斷結果表示是,則選取性能得分最高的訓練得到的基線模型、性能得分最高的訓練得到的基線模型對應的擴充得到的訓練數據池和性能得分,作為窗口j對應的第k個初步篩選結果;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于上海大學,未經上海大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202210036212.X/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:跨區塊鏈的數據推送方法及裝置
- 下一篇:鼻子測量器及測量方法





