[發明專利]一種基于深度學習的數據清洗方法有效
| 申請號: | 202110382370.6 | 申請日: | 2021-04-09 |
| 公開(公告)號: | CN113033694B | 公開(公告)日: | 2023-04-07 |
| 發明(設計)人: | 程敏;尹帥 | 申請(專利權)人: | 深圳億嘉和科技研發有限公司 |
| 主分類號: | G06V10/72 | 分類號: | G06V10/72;G06V10/774;G06V10/764;G06V10/82 |
| 代理公司: | 南京瑞弘專利商標事務所(普通合伙) 32249 | 代理人: | 梁天彥 |
| 地址: | 518052 廣東省深圳市南山區粵海街道大沖社區*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 深度 學習 數據 清洗 方法 | ||
本發明公開了一種基于深度學習的數據清洗方法,包括步驟:(1)獲取原始圖像數據集,等分成若干子集并分別構建相應的圖像分類模型;(2)采用各個圖像分類模型對原始圖像數據集中每個圖像進行類別預測,得到相應的類別及其分數,并計算得到相應的類別預測分數的標準差,并確定其是否為正常圖像數據集;(3)以正常圖像數據集作為基準圖像數據集構建基準模型,并計算該基準模型的基準分類準確率;(4)從異常圖像數據集中選取正常圖像數據集;(5)將所有的正常圖像數據集的圖像匯總,得到有效圖像集合。本發明相對于人工方法,數據清洗效率有一定的提高,數據清洗的質量也有一定的保證,同時也豐富了現有的圖像自動化清洗方法。
技術領域
本發明涉及圖像處理領域,尤其涉及一種基于深度學習的數據清洗方法。
背景技術
在深度學習研究中,往往需要大量的帶標簽的樣本數據進行模型訓練,再通過訓練好的模型來對無標簽的數據進行預測。例如圖像分類,顧名思義,是指輸入一張圖像,輸出一個已知的混合類別中的一個標簽,基于深度學習算法的圖像分類模型,往往會輸出多個標簽的類別概率,也就是預測分數,然后取其中分數最大的那一類標簽為最終預測類別。這樣訓練樣本的數量和質量直接決定了模型預測的準確度。
然而大規模、高質量的圖像數據往往很難從現實生活中去獲取,很多時候只能借助于互聯網去獲取原始數據,再對獲取到的數據進行清洗和處理。但是網絡上的數據參差不齊,質量無法保證,有可能存在圖像類別標記錯誤,或者圖像主題不突出,水印文字噪聲過多等問題,不適合直接作為樣本數據來對深度學習模型進行訓練和測試,故需要對原始數據進行清洗,過濾掉其中的“臟”數據,提升訓練和測試數據的質量。
目前已有的圖像數據清洗方法中,主要包括統計法、人工檢測、關聯聚合等操作,對數據集中類別數過少、模糊、重復、或帶有大量噪聲的圖像類數據直接進行刪除。人工檢測是最普遍的圖像篩選方法,其優勢在于精度高,不易誤刪除,缺點在于需要消耗大量的人力成本,速度較慢,當面對海量的圖像數據時,圖像清洗的效率比較低。另外,也有通過算法來自動化的對低質量的圖像數據進行篩選,例如計算圖像的相似度,將相似度較高的圖像篩選出來,過濾掉重復的數據,或者利用已經預訓練好的模型來對原始圖像進行分類預測,對分類精度較低的圖像直接進行剔除,以達到數據清洗的目的。但是這些基于算法的清洗方法也存在一定的問題,當算法或者模型的穩定性或魯棒性不夠高的時候,容易將正常樣本的類別預測成錯誤的類別,或者類別預測正確但是預測的分數較低,會將原始數據直接給刪除掉,造成有效數據的誤刪,或者由于模型誤分類導致無效數據被保留,最終導致數據清洗效果不理想。
發明內容
發明目的:本發明針對上述不足,提出了一種基于深度學習的數據清洗方法,基于深度學習圖像分類算法進行迭代式模型訓練、預測,并利用預測類別分數的標準差作為圖像初次篩選的依據,重復多次,最終剔除掉標準差超過一定閾值,并且對圖像分類模型準確率提升沒有幫助的樣本數據,以此來達到數據清洗的目的。
技術方案:
一種基于深度學習的數據清洗方法,包括步驟:
(1)獲取不同類別的原始圖像數據形成原始圖像數據集,等分成若干子集,并分別以各個子集構建相應的圖像分類模型;
(2)采用步驟(1)得到的各個圖像分類模型對原始圖像數據集中每個圖像進行類別預測,分別得到相應類別及其分數,并計算得到相應圖像分類模型的類別預測分數的標準差,并將其與設定閾值比對,若小于設定閾值,則該圖像分類模型所對應的子集定義為正常圖像數據集,否則定義為異常圖像數據集;其中相應類別的分數表示圖像分類模型對某一圖像的類別預測為該類別的概率;
(3)以步驟(2)得到的正常圖像數據集作為基準圖像數據集,并按照簡單隨機抽樣的方式生成訓練集和檢驗集,基于深度學習的圖像分類算法通過訓練集訓練得到相應的圖像分類模型作為基準模型,并通過檢驗集計算該基準圖像分類模型的分類準確率作為基準分類準確率;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于深圳億嘉和科技研發有限公司,未經深圳億嘉和科技研發有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110382370.6/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一類環肽類化合物及其制備方法和應用
- 下一篇:一種車輛防護網及具有其的車輛
- 數據顯示系統、數據中繼設備、數據中繼方法、數據系統、接收設備和數據讀取方法
- 數據記錄方法、數據記錄裝置、數據記錄媒體、數據重播方法和數據重播裝置
- 數據發送方法、數據發送系統、數據發送裝置以及數據結構
- 數據顯示系統、數據中繼設備、數據中繼方法及數據系統
- 數據嵌入裝置、數據嵌入方法、數據提取裝置及數據提取方法
- 數據管理裝置、數據編輯裝置、數據閱覽裝置、數據管理方法、數據編輯方法以及數據閱覽方法
- 數據發送和數據接收設備、數據發送和數據接收方法
- 數據發送裝置、數據接收裝置、數據收發系統、數據發送方法、數據接收方法和數據收發方法
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置





