[發明專利]機器學習模型的獲取方法、獲取裝置、設備及存儲介質有效
| 申請號: | 201810619091.5 | 申請日: | 2018-06-15 |
| 公開(公告)號: | CN109034188B | 公開(公告)日: | 2021-11-05 |
| 發明(設計)人: | 劉世權;劉弘也;蘇馳 | 申請(專利權)人: | 北京金山云網絡技術有限公司;北京金山云科技有限公司 |
| 主分類號: | G06K9/62 | 分類號: | G06K9/62 |
| 代理公司: | 北京柏杉松知識產權代理事務所(普通合伙) 11413 | 代理人: | 丁蕓;項京 |
| 地址: | 100085 北京*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 機器 學習 模型 獲取 方法 裝置 設備 存儲 介質 | ||
1.一種機器學習模型的獲取方法,其特征在于,所述方法包括:
獲取標注有類別的第一樣本圖片;
將所述標注有類別的第一樣本圖片作為訓練樣本,訓練得到機器學習模型;
將第二樣本圖片輸入至所述機器學習模型,獲取所述機器學習模型預測的所述第二樣本圖片的類別,所述第二樣本圖片為不含有標注類別的圖片;
確定所述機器學習模型所預測的具有正確類別的第二樣本圖片;
將所述具有正確類別的第二樣本圖片作為訓練樣本輸入所述機器學習模型,訓練得到新的機器學習模型,所述新的機器學習模型用于對圖片的類別進行預測;
其中,所述獲取標注有類別的第一樣本圖片,包括:
獲取多張待標注類別的圖片,將多張圖片劃分為若干份;
將劃分后的每份圖片分配給至少兩個標注者;
針對劃分后的每份圖片,獲取所述至少兩個標注者的標注結果數據,每個標注者的標注結果數據中,均攜帶有與該份圖片中的各圖片對應的預標注類別;
針對所述每份圖片中的每張圖片,對比該張圖片在所述至少兩個標注者的標注結果數據中的預標注類別是否相同,確定所述每份圖片中在所述至少兩個標注者的標注結果數據中的預標注類別均相同的圖片的數量;
針對劃分后的每份圖片,基于所確定的所述預標注類別均相同的圖片的數量與該份圖片總數量的比例關系,確定該份圖片中圖片的標注類別,并將確定標注類別后的圖片作為第一樣本圖片;
所述標注者包括至少三個;
所述針對劃分后的每份圖片,基于所確定的所述預標注類別均相同的圖片的數量與該份圖片總數量的比例關系,確定該份圖片中圖片的標注類別,包括:
如果劃分后的其中一份圖片中,所確定的所述預標注類別均相同的圖片的數量,與該份圖片總數量之比小于第一預設閾值,獲取所述至少三個標注者的標注結果數據中兩個標注結果數據的相似度;
當所述至少三個標注者的標注結果數據中,存在相似度高于第二預設閾值的兩個標注結果數據時:
確定相似度最高的兩個標注結果數據;
將所述相似度最高的兩個標注結果數據中,具有相同預標注類別的圖片的預標注類別確定為所述圖片的標注類別,其中,兩個標注結果數據的相似度為:該份圖片在兩個標注結果數據中,具有相同預標注類別的圖片的數量與該份圖片數量的比值。
2.根據權利要求1所述的方法,其特征在于,所述針對劃分后的每份圖片,基于所確定的所述預標注類別均相同的圖片的數量與該份圖片總數量的比例關系,確定該份圖片中圖片的標注類別,包括:
如果劃分后的其中一份圖片中,所確定的所述預標注類別均相同的圖片的數量與該份圖片總數量之比大于或等于第一預設閾值,將所述預標注類別均相同的圖片的預標注類別確定為所述圖片的標注類別。
3.根據權利要求2所述的方法,其特征在于,所述將所述預標注類別均相同的圖片的預標注類別確定為所述圖片的標注類別之后,所述方法還包括:
對該份圖片中所述預標注類別不同的圖片進行再次標注。
4.根據權利要求1所述的方法,其特征在于,所述針對劃分后的每份圖片,基于所確定的所述預標注類別均相同的圖片的數量與該份圖片總數量的比例關系,確定該份圖片中圖片的標注類別,包括:
如果劃分后的其中一份圖片中,所確定的所述預標注類別均相同的圖片的數量與該份圖片總數量之比小于第一預設閾值,刪除與該份圖片對應的所述至少兩個標注者的標注結果數據,并對該份圖片中的圖片進行再次標注。
5.根據權利要求1所述的方法,其特征在于,所述確定所述機器學習模型所預測的具有正確類別的第二樣本圖片,包括:
針對所獲取的所述第二樣本圖片的每一種預測類別,將所述預測類別的第二樣本圖片分配給至少一個第三標注者,獲取所述至少一個第三標注者對所述第二樣本圖片的所述預測類別的核驗結果,所述核驗結果指示了所述預測類別是否為所述預測類別的第二樣本圖片的正確類別;
根據所述至少一個第三標注者對所述第二樣本圖片的所述預測類別的核驗結果,確定所述預測類別為正確類別的第二樣本圖片。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京金山云網絡技術有限公司;北京金山云科技有限公司,未經北京金山云網絡技術有限公司;北京金山云科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810619091.5/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種用戶家庭工作地址挖掘流程
- 下一篇:基于高分遙感影像的森林類型識別方法





