[發明專利]數據處理方法、裝置和計算機可讀存儲介質在審
| 申請號: | 202010021147.4 | 申請日: | 2020-01-09 |
| 公開(公告)號: | CN111260073A | 公開(公告)日: | 2020-06-09 |
| 發明(設計)人: | 黃綠君;吳榮彬;張旭 | 申請(專利權)人: | 京東數字科技控股有限公司 |
| 主分類號: | G06N20/00 | 分類號: | G06N20/00 |
| 代理公司: | 中國國際貿易促進委員會專利商標事務所 11038 | 代理人: | 張雷;許蓓 |
| 地址: | 100176 北京市大興區北京經*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 數據處理 方法 裝置 計算機 可讀 存儲 介質 | ||
1.一種數據處理方法,包括:
根據待處理數據,確定待訓練機器學習模型及其相應的第一超參數搜索空間;
在所述第一超參數搜索空間中,采樣候選超參數;
根據所述候選超參數,利用第一訓練數據集對所述待訓練機器學習模型進行訓練;
重新采樣候選超參數,根據重新采樣的候選超參數重復上述訓練過程,直到訓練后的所述待訓練機器學習模型滿足迭代停止條件,以獲取訓練完畢的機器學習模型;
利用所述訓練完畢的機器學習模型及其相應的候選超參數,對所述待處理數據進行處理。
2.根據權利要求1所述的數據處理方法,其中,所述確定待訓練機器學習模型及其相應的第一超參數搜索空間包括:
確定多個待訓練機器學習模型,以獲取多個訓練完畢的機器學習模型及其相應的候選超參數;
所述對所述待處理數據進行處理包括:
根據各相應的候選超參數,確定融合超參數用于處理所述待處理數據。
3.根據權利要求2所述的數據處理方法,其中,所述在所述第一超參數搜索空間中采樣候選超參數包括:
為每個待訓練機器學習模型,分別確定相應的第一超參數搜索空間;
在各相應的第一超參數搜索空間中確定候選超參數,分別用于訓練相應的待訓練機器學習模型。
4.根據權利要求2所述的數據處理方法,其中,所述利用所述訓練完畢的機器學習模型及其相應的候選超參數,對所述待處理數據進行處理包括:
將所述多個訓練完畢的機器學習模型中性能指標最高的機器學習模型確定為候選機器學習模型;
針對所述候選機器學習模型,重新采樣候選超參數,重復上述訓練過程,直到訓練后的所述候選機器學習模型滿足所述迭代停止條件,以獲取訓練完畢的候選機器學習模型;
利用所述訓練完畢的候選機器學習模型及其相應的候選超參數,對所述待處理數據進行處理。
5.根據權利要求1所述的數據處理方法,其中,所述利用所述訓練完畢的機器學習模型及其相應的候選超參數,對所述待處理數據進行處理包括:
根據所述訓練完畢的機器學習模型的性能指標,對所述第一超參數搜索空間進行縮小或放大處理;
利用所述處理后的第一超參數搜索空間,重新采樣候選超參數以便重新訓練所述訓練完畢的機器學習模型,用于處理所述待處理數據。
6.根據權利要求1所述的數據處理方法,其中,所述利用所述訓練完畢的機器學習模型及其相應的候選超參數,對所述待處理數據進行處理包括:
利用擴大后的第一訓練數據集,對所述訓練完畢的機器學習模型進行再次訓練;
利用再次訓練完畢的機器學習模型及其相應的候選超參數,對所述待處理數據進行處理。
7.根據權利要求1所述的數據處理方法,其中,
所述待訓練機器學習模型為根據第二超參數搜索空間訓練完畢的機器學習模型,所述第一超參數搜索空間為進行縮小或放大處理后的所述第二超參數搜索空間。
8.根據權利要求1所述的數據處理方法,其中,
所述待訓練機器學習模型為根據第二訓練數據集訓練完畢的機器學習模型,所述第一訓練數據集為進行擴大后的所述第二訓練數據集。
9.根據權利要求1-8任一項所述的數據處理方法,其中,所述確定待訓練機器學習模型及其相應的第一超參數搜索空間包括:
根據用戶在提供的配置頁面中的選擇,確定所述待訓練機器學習模型及其相應的第一超參數搜索空間。
10.根據權利要求9所述的數據處理方法,其中,
所述配置頁面用于用戶選擇所述候選超參數的采樣方法、訓練用的容器鏡像、訓練用的硬件類型、訓練用的硬件數量、并發執行數、所述第一訓練數據集、所述迭代停止條件中的至少一個。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于京東數字科技控股有限公司,未經京東數字科技控股有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010021147.4/1.html,轉載請聲明來源鉆瓜專利網。





