[發明專利]優化監督學習的訓練數據的方法、裝置、電子設備和介質在審
| 申請號: | 201710269921.1 | 申請日: | 2017-04-21 |
| 公開(公告)號: | CN108734296A | 公開(公告)日: | 2018-11-02 |
| 發明(設計)人: | 俞曉光;李葆倉 | 申請(專利權)人: | 北京京東尚科信息技術有限公司;北京京東世紀貿易有限公司 |
| 主分類號: | G06N99/00 | 分類號: | G06N99/00 |
| 代理公司: | 中原信達知識產權代理有限責任公司 11219 | 代理人: | 張一軍;趙靜 |
| 地址: | 100195 北京市海淀區杏石口路6*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 訓練數據 測試集 預估 電子設備 分類結果 分類模型 達標 標注 優化 判斷步驟 訓練分類 訓練集 測試 監督 篩選 學習 重復 | ||
1.一種優化監督學習的訓練數據的方法,其特征在于,包括:
步驟一:判斷訓練數據的質量是否達標,若達標,則將所述訓練數據用于分類模型的訓練,若不達標,則進入步驟二,其中,所述訓練數據的質量是指訓練數據被預先標注的分類值的準確程度;
步驟二:將所述訓練數據劃分為N份,其中,N為大于1的整數;
步驟三:選擇N份中的N-1份作為訓練集用以訓練分類模型,剩余的1份作為測試集,然后利用訓練好的分類模型預估所述測試集中的訓練數據的分類結果,根據所述分類結果篩選需要重新標注的訓練數據;以及
步驟四:判斷步驟三中的測試集是否為最后一份測試集,若是,則結束優化,若不是,則重復步驟三至步驟四,直至N份中的每一份訓練數據都作為測試集被預估過。
2.根據權利要求1所述的方法,其特征在于,所述步驟一還包括:
將所述訓練數據劃分為兩部分,利用其中的一部分作為訓練集訓練分類模型,然后利用訓練好的分類模型預估剩余訓練數據的分類結果;以及
判斷預估的分類結果的準確率是否大于預設準確率閾值,若不大于,則所述訓練數據的質量不達標。
3.根據權利要求1所述的方法,其特征在于,所述步驟二中:N等于5。
4.根據權利要求1所述的方法,其特征在于,所述步驟三還包括:
判斷所述測試集中的訓練數據的分類結果與預先標注的分類值是否一致,若不一致,則所述測試集中的訓練數據需要被重新標注;和/或
判斷所述測試集的訓練數據的分類結果的熵是否大于預設熵閾值,若大于,則所述測試集中的訓練數據需要被重新標注。
5.一種優化監督學習的訓練數據的裝置,其特征在于,包括:
判斷模塊,用于判斷訓練數據的質量是否達標,若達標,則將所述訓練數據用于分類模型的訓練,若不達標,則進入劃分模塊,其中,所述訓練數據的質量是指訓練數據被預先標注的分類值的準確程度;
劃分模塊,用于將所述訓練數據劃分為N份,其中,N為大于1的整數;
篩選模塊,用于選擇N份中的N-1份作為訓練集用以訓練分類模型,剩余的1份作為測試集,然后利用訓練好的分類模型預估所述測試集中的訓練數據的分類結果,根據所述分類結果篩選需要重新標注的訓練數據;以及
迭代模塊,用于判斷篩選模塊中的測試集是否為最后一份測試集,若是,則結束優化,若不是,則重新進入篩選模塊,直至N份中的每一份訓練數據都作為測試集被預估過。
6.根據權利要求5所述的裝置,其特征在于,所述判斷模塊還用于:
將所述訓練數據劃分為兩部分,利用其中的一部分作為訓練集訓練分類模型,然后利用訓練好的分類模型預估剩余訓練數據的分類結果;以及
判斷預估的分類結果的準確率是否大于預設準確率閾值,若不大于,則所述訓練數據的質量不達標。
7.根據權利要求5所述的裝置,其特征在于,所述劃分模塊中:N等于5。
8.根據權利要求5所述的裝置,其特征在于,所述篩選模塊還用于:
判斷所述測試集中的訓練數據的分類結果與預先標注的分類值是否一致,若不一致,則所述測試集中的訓練數據需要被重新標注;和/或
判斷所述測試集的訓練數據的分類結果的熵是否大于預設熵閾值,若大于,則所述測試集中的訓練數據需要被重新標注。
9.一種電子設備,其特征在于,包括:
一個或多個處理器;
存儲裝置,用于存儲一個或多個程序,
當所述一個或多個程序被所述一個或多個處理器執行,使得所述一個或多個處理器實現如權利要求1-4中任一所述的方法。
10.一種計算機可讀介質,其上存儲有計算機程序,其特征在于,所述程序被處理器執行時實現如權利要求1-4中任一所述的方法。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京京東尚科信息技術有限公司;北京京東世紀貿易有限公司,未經北京京東尚科信息技術有限公司;北京京東世紀貿易有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710269921.1/1.html,轉載請聲明來源鉆瓜專利網。





