[發明專利]圖片數據集更新方法、裝置、系統及計算機存儲介質有效
| 申請號: | 201711325798.7 | 申請日: | 2017-12-12 |
| 公開(公告)號: | CN107958272B | 公開(公告)日: | 2020-11-24 |
| 發明(設計)人: | 李明昊;張祥雨 | 申請(專利權)人: | 北京曠視科技有限公司;北京邁格威科技有限公司 |
| 主分類號: | G06K9/62 | 分類號: | G06K9/62;G06F16/55;G06F16/51;G06F16/532;G06F16/58;G06F16/9535;G06F16/951;G06F40/289 |
| 代理公司: | 北京超凡志成知識產權代理事務所(普通合伙) 11371 | 代理人: | 梁香美 |
| 地址: | 100000 北京*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 圖片 數據 更新 方法 裝置 系統 計算機 存儲 介質 | ||
本發明提供了一種圖片數據集更新方法、裝置、系統及計算機存儲介質,涉及圖像分類的技術領域,該方法包括:響應用戶輸入的圖片數據集的更新指示,獲取與更新指示對應的待更新的圖片數據集;根據更新指示對待更新的圖片數據集進行更新;其中,更新指示包括:增加待更新的圖片數據集中現有圖片類別的圖片數量;和/或,增加待更新的圖片數據集的圖片類別。本發明所述的圖片數據集更新方法、裝置、系統及計算機存儲介質,在更新的過程中不僅能增加待更新的圖片數據集中現有圖片類別的圖片數量,也可以增加待更新的圖片數據集的圖片類別,便于對數據集進行擴充,進而提高圖片數據集的質量。
技術領域
本發明涉及圖像分類的技術領域,尤其是涉及一種圖片數據集更新方法、裝置、系統及計算機存儲介質。
背景技術
通常,圖片分類數據集的作用在于訓練出更好的圖片分類器,然而不同的圖片對于圖片分類器性能有不同的提升效果。現有的圖片分類器大部分都是基于神經網絡模型的。神經網絡分類器分類能力的強弱在很大程度上依賴數據集的質量,而數據集的質量和數據集中含有的圖片數量有很大關系,因此,通常采用向數據集中添加圖片的方式來提高數據集的質量。
現有技術中在搜索符合類別的圖片時,大多僅基于現有的圖片類別進行擴充,缺乏對圖片類別之間的邏輯聯系的刻畫,從而難以增加數據集中的圖片類別,同時也缺乏合理的圖片類別增加方法,不利于提升整個數據集的質量。
發明內容
有鑒于此,本發明的目的在于提供一種圖片數據集更新方法、裝置、系統及計算機存儲介質,以提高數據集的質量。
第一方面,本發明實施例提供了一種圖片數據集更新方法,包括:響應用戶輸入的圖片數據集的更新指示,獲取與更新指示一致的待更新的圖片數據集;根據更新指示對待更新的圖片數據集進行更新;其中,更新指示包括:增加待更新的圖片數據集中現有圖片類別的圖片數量;和/或,增加待更新的圖片數據集的圖片類別;
在本發明較佳的實施例中,上述當更新指示為增加待更新的圖片數據集中現有圖片類別的圖片數量時,根據更新指示對待更新的圖片數據集進行更新的步驟,包括:獲取待增加圖片數量的圖片類別,將圖片類別標記為選定圖片類別;選取選定圖片類別的搜索詞;搜索與搜索詞匹配的圖片,直至搜索到的圖片的數量達到預先設定的數量值;對搜索到的圖片進行篩選,將篩選合格的圖片加入到選定圖片類別,以對待更新的數據集進行更新。
在本發明較佳的實施例中,上述獲取待增加圖片數量的圖片類別的步驟,包括:接收用戶指定的類別,將指定的類別作為待增加圖片數量的圖片類別;或者,根據預先設定的選擇標準自動獲取待增加圖片數量的圖片類別,其中,選擇標準包括以下標準之一:選擇待更新的數據集中包含圖片數量少于其他所有類別的圖片類別;選擇當前圖片分類器的錯誤率高于其他所有類別的圖片類別;選擇當前圖片分類器的錯誤率低于其他所有類別的圖片類別。
在本發明較佳的實施例中,上述選取選定圖片類別的搜索詞的步驟,包括:當選定圖片類別對應的圖片數量為零時,將選定圖片類別的名稱,以及名稱的同義詞作為搜索詞;當選定圖片類別對應的圖片數量不為零時,從預先存儲的詞典中查詢描述選定圖片類別的文本,對文本進行分詞操作,去除分詞操作結果中包含的停用詞后,在分詞操作結果中隨機選取搜索詞。
在本發明較佳的實施例中,上述對搜索到的圖片進行篩選的步驟,包括:將搜索到的圖片輸入至預先訓練好的圖片分類器,計算搜索到的圖片屬于選定圖片類別的概率;判斷每個圖片的概率是否滿足預先設置的概率范圍;如果是,將圖片標記為篩選合格的圖片。
在本發明較佳的實施例中,上述計算搜索到的圖片屬于選定圖片類別的概率之后,上述方法還包括:統計上述概率滿足預先設置的概率范圍的圖片數量,上述概率高于第一概率閾值的圖片數量,以及上述概率低于第二概率閾值的圖片數量;其中,第二概率閾值低于第一概率閾值,概率范圍為高于第二概率閾值且低于第一概率閾值的范圍。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京曠視科技有限公司;北京邁格威科技有限公司,未經北京曠視科技有限公司;北京邁格威科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201711325798.7/2.html,轉載請聲明來源鉆瓜專利網。
- 數據顯示系統、數據中繼設備、數據中繼方法、數據系統、接收設備和數據讀取方法
- 數據記錄方法、數據記錄裝置、數據記錄媒體、數據重播方法和數據重播裝置
- 數據發送方法、數據發送系統、數據發送裝置以及數據結構
- 數據顯示系統、數據中繼設備、數據中繼方法及數據系統
- 數據嵌入裝置、數據嵌入方法、數據提取裝置及數據提取方法
- 數據管理裝置、數據編輯裝置、數據閱覽裝置、數據管理方法、數據編輯方法以及數據閱覽方法
- 數據發送和數據接收設備、數據發送和數據接收方法
- 數據發送裝置、數據接收裝置、數據收發系統、數據發送方法、數據接收方法和數據收發方法
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置





