[發明專利]機器學習模型生成方法和裝置有效
| 申請號: | 201610192139.X | 申請日: | 2016-03-30 |
| 公開(公告)號: | CN105912500B | 公開(公告)日: | 2017-11-14 |
| 發明(設計)人: | 詹志征;劉志強;沈志勇 | 申請(專利權)人: | 百度在線網絡技術(北京)有限公司 |
| 主分類號: | G06F15/18 | 分類號: | G06F15/18;G06N99/00 |
| 代理公司: | 北京英賽嘉華知識產權代理有限責任公司11204 | 代理人: | 王達佐,馬曉亞 |
| 地址: | 100085 北京市*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 機器 學習 模型 生成 方法 裝置 | ||
1.一種機器學習模型生成方法,其特征在于,所述方法包括:
生成模型參數組合,以及生成對應于每一個模型參數組合的機器學習模型,其中,模型參數指示機器學習模型的輸入向量與輸出向量之間的關聯關系;
執行劃分操作:將預設機器學習用數據劃分為訓練數據和驗證數據,將預設機器學習用數據劃分為訓練數據和驗證數據包括:從多個預設子集中選取一個子集的預設機器學習用數據作為驗證數據,以及將其他子集中的預設機器學習用數據作為訓練數據,其中,所述預設子集為將預設機器學習用數據劃分而得到的多個包含的預設機器學習用數據的個數相等的集合;
執行訓練與驗證操作:并行地分別基于所述訓練數據對每一個機器學習模型進行訓練;分別基于驗證數據對每一個訓練后的機器學習模型學習的準確率進行驗證,得到驗證分數,所述驗證分數指示機器學習模型基于所述驗證數據而輸出的輸出向量對應的數據類型與驗證數據的數據類型一致的比率;
執行模型生成操作:基于驗證分數,確定待生成的機器學習模型對應的最優模型參數組合,以及生成對應于所述最優模型參數組合的機器學習模型。
2.根據權利要求1所述的方法,其特征在于,所述方法還包括:
利用分布式計算框架Hadoop的Map-Reduce模型中的Map任務執行訓練與驗證操作,利用分布式計算框架Hadoop的Map-Reduce模型中的Reduce任務執行模型生成操作。
3.根據權利要求1所述的方法,其特征在于,劃分操作和訓練與驗證操作均被執行多次,所述訓練數據為每一次劃分操作而劃分出的訓練數據,所述驗證數據為每一次劃分操作而劃分出的驗證數據;以及
并行地分別基于所述訓練數據對每一個機器學習模型進行訓練包括:
基于每一次劃分操作而劃分出的訓練數據,對機器學習模型進行訓練;
分別基于驗證數據對每一個訓練后的機器學習模型學習的準確率進行驗證,得到驗證分數包括:
基于每一次劃分操作而劃分出的驗證數據,對每一次訓練后的所述機器學習模型學習的準確率進行驗證,得到多個驗證分數。
4.根據權利要求3所述的方法,其特征在于,基于驗證分數,確定待生成的機器學習模型對應的最優模型參數組合包括:
分別計算每一個機器學習模型對應的多個驗證分數的平均參數值;
將所述平均參數值作為參考模型參數值;
基于所述參考模型參數值,確定待生成的機器學習模型對應的最優模型參數組合。
5.一種機器學習模型生成裝置,其特征在于,所述裝置包括:
生成單元,配置用于生成模型參數組合,以及生成對應于每一個模型參數組合的機器學習模型,其中,模型參數指示機器學習模型的輸入向量與輸出向量之間的關聯關系;
劃分單元,配置用于執行劃分操作:將預設機器學習用數據劃分為訓練數據和驗證數據,所述劃分單元包括:選取子單元,配置用于從多個預設子集中選取一個子集的預設機器學習用數據作為驗證數據,以及將其他子集中的預設機器學習用數據作為訓練數據,其中,所述預設子集為將預設機器學習用數據劃分而得到的多個包含的預設機器學習用數據的個數相等的集合;
處理單元,配置用于執行訓練與驗證操作:并行地分別基于所述訓練數據對每一個機器學習模型進行訓練;分別基于驗證數據對每一個訓練后的機器學習模型學習的準確率進行驗證,得到驗證分數,所述驗證分數指示機器學習模型基于所述驗證數據而輸出的輸出向量對應的數據類型與驗證數據的數據類型一致的比率;
執行單元,配置用于執行模型生成操作:基于驗證分數,確定待生成的機器學習模型對應的最優模型參數組合,以及生成對應于所述最優模型參數組合的機器學習模型。
6.根據權利要求5所述的裝置,其特征在于,所述裝置還包括:
分布式處理單元,配置用于利用分布式計算框架Hadoop的Map-Reduce模型中的Map任務執行訓練與驗證操作,利用分布式計算框架Hadoop的Map-Reduce模型中的Reduce任務執行模型生成操作。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于百度在線網絡技術(北京)有限公司,未經百度在線網絡技術(北京)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201610192139.X/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:苗木標簽及苗木標簽系統
- 下一篇:基于CCLink的智能停車場導位控制系統





