[發明專利]數據處理方法、裝置和計算機可讀存儲介質在審
| 申請號: | 202010021147.4 | 申請日: | 2020-01-09 |
| 公開(公告)號: | CN111260073A | 公開(公告)日: | 2020-06-09 |
| 發明(設計)人: | 黃綠君;吳榮彬;張旭 | 申請(專利權)人: | 京東數字科技控股有限公司 |
| 主分類號: | G06N20/00 | 分類號: | G06N20/00 |
| 代理公司: | 中國國際貿易促進委員會專利商標事務所 11038 | 代理人: | 張雷;許蓓 |
| 地址: | 100176 北京市大興區北京經*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 數據處理 方法 裝置 計算機 可讀 存儲 介質 | ||
本公開涉及一種數據處理方法、裝置和計算機可讀存儲介質,涉及計算機技術領域。該方法包括:根據待處理數據,確定待訓練機器學習模型及其相應的第一超參數搜索空間;在第一超參數搜索空間中,采樣候選超參數;根據候選超參數,利用第一訓練數據集對待訓練機器學習模型進行訓練;重新采樣候選超參數,根據重新采樣的候選超參數重復上述訓練過程,直到訓練后的待訓練機器學習模型滿足迭代停止條件,以獲取訓練完畢的機器學習模型;利用訓練完畢的機器學習模型及其相應的候選超參數,對待處理數據進行處理。
技術領域
本公開涉及計算機技術領域,特別涉及一種數據處理方法、數據處理裝置和計算機可讀存儲介質。
背景技術
由于機器學習技術在金融、廣告、推薦系統和用戶行為分析等多個方面的應用不斷取得成功,越來越多的企業期望借助機器學習技術來提升業務運行的效率和質量。
但是,機器學習模型的構建是一個復雜而耗時的過程,需要嘗試不同的算法。而且,每種算法都有多個超參數需要根據具體的數據和任務目標進行合理的設置。
在相關技術中,主要是基于專家知識的模型選擇和超參數調試。即,基于數據的探索分析和人類專家的超參數調試的經驗,針對具體任務選擇不同的算法模型,進行多次試驗、對比分析;根據實驗和分析結果,尋找在驗證集上表現良好的模型和超參數設置。
發明內容
本公開的發明人發現上述相關技術中存在如下問題:超參數的確定過程依賴人工因素,導致得到的機器學習模型的數據處理性能較差。
鑒于此,本公開提出了一種數據處理技術方案,能夠提高機器學習模型的數據處理性能。
根據本公開的一些實施例,提供了一種數據處理方法,包括:根據待處理數據,確定待訓練機器學習模型及其相應的第一超參數搜索空間;在第一超參數搜索空間中,采樣候選超參數;根據候選超參數,利用第一訓練數據集對待訓練機器學習模型進行訓練;重新采樣候選超參數,根據重新采樣的候選超參數重復上述訓練過程,直到訓練后的待訓練機器學習模型滿足迭代停止條件,以獲取訓練完畢的機器學習模型;利用訓練完畢的機器學習模型及其相應的候選超參數,對待處理數據進行處理。
在一些實施例中,確定待訓練機器學習模型及其相應的第一超參數搜索空間包括:確定多個待訓練機器學習模型,以獲取多個訓練完畢的機器學習模型的及其相應的候選超參數。
在一些實施例中,對待處理數據進行處理包括:根據各相應的候選超參數,確定融合超參數用于處理待處理數據。
在一些實施例中,在第一超參數搜索空間中采樣候選超參數包括:為每個待訓練機器學習模型,分別確定相應的第一超參數搜索空間;在各相應的第一超參數搜索空間中確定候選超參數,分別用于訓練相應的待訓練機器學習模型。
在一些實施例中,對待處理數據進行處理包括:將多個訓練完畢的機器學習模型中性能指標最高的機器學習模型確定為候選機器學習模型;針對候選機器學習模型,重新采樣候選超參數,重復上述訓練過程,直到訓練后的候選機器學習模型滿足迭代停止條件,以獲取訓練完畢的候選機器學習模型;利用訓練完畢的候選機器學習模型及其相應的候選超參數,對待處理數據進行處理。
在一些實施例中,對待處理數據進行處理包括:根據訓練完畢的機器學習模型的性能指標,對第一超參數搜索空間進行縮小或放大處理;利用處理后的第一超參數搜索空間,重新訓練訓練完畢的機器學習模型,用于處理待處理數據。
在一些實施例中,對待處理數據進行處理包括:利用擴大后的第一訓練數據集,對訓練完畢的機器學習模型進行再次訓練;利用再次訓練完畢的機器學習模型及其相應的候選超參數,對待處理數據進行處理。
在一些實施例中,待訓練機器學習模型為根據第二超參數搜索空間訓練完畢的機器學習模型,第一超參數搜索空間為進行縮小或放大處理后的第二超參數搜索空間。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于京東數字科技控股有限公司,未經京東數字科技控股有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010021147.4/2.html,轉載請聲明來源鉆瓜專利網。





