[發明專利]一種圖像數據的增廣方法在審
| 申請號: | 201810438780.6 | 申請日: | 2018-05-09 |
| 公開(公告)號: | CN108830294A | 公開(公告)日: | 2018-11-16 |
| 發明(設計)人: | 羅培元 | 申請(專利權)人: | 四川斐訊信息技術有限公司 |
| 主分類號: | G06K9/62 | 分類號: | G06K9/62;G06N3/04;G06N3/08 |
| 代理公司: | 上海碩力知識產權代理事務所(普通合伙) 31251 | 代理人: | 郭桂峰 |
| 地址: | 610100 四川省成*** | 國省代碼: | 四川;51 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 圖像數據 篩選 圖像數據集 類別信息 樣本數據 預設 相似度篩選 對抗訓練 人工篩選 神經網絡 樣本圖像 圖像集 歸類 哈希 | ||
本發明提供了一種圖像數據的增廣方法,其方法包括:S1000獲取待篩選圖像集的類別信息對應的圖像數據;S2000根據預設篩選策略和所述類別信息對應的樣本圖像,識別所述圖像數據;S3000根據識別結果將所述圖像數據進行歸類得到圖像數據集;所述預設篩選策略包括相似度篩選,哈希值篩選和關鍵字篩選中的任意一種或者多種;S4000對所述圖像數據集進行對抗訓練得到樣本數據集。本發明實現減少人工篩選樣本數據集,提升篩選效率和篩選可靠性,提高神經網絡的準確性。
技術領域
本發明涉及數據處理領域,尤指一種圖像數據的增廣方法。
背景技術
近年來,隨著計算機視覺技術的不斷發展,特別是神經網絡模型的迅速發展,人們對計算機視覺訓練所需圖像數據的需求特別是對標簽信息準確的圖像數據的需求日益增大。
神經網絡模型(ConvolutionalNeuralNetworks,CNN)是深度學習算法的一種,是圖像識別等領域重要的處理分析工具,近年來已經成為眾多科學領域的研究熱點之一。神經網絡模型算法的優點在于訓練模型時不需要使用任何人工標注的特征,可以自動探索輸入變量所隱含的特征,同時網絡的權值共享特性,大大降低了模型的復雜度,減少了權值的數量。這些優點在網絡的輸入是圖像時表現的尤為明顯,原始圖像可以直接作為網絡的輸入,避免了傳統識別算法中復雜的特征提取和數據重建過程。
為獲取訓練神經網絡模型所需的大量圖像樣本數據集,最便捷的方式是通過網絡獲取,采用網絡爬蟲的方法,網絡爬蟲能夠按照設定的條件將符合該條件的信息從互聯網的海量信息中抓取出來。
目前的做法是,采用網絡爬蟲海量的爬取,隨后進行人工增廣和清洗。帶來的問題是工作量異常巨大,增廣結果主觀性大,增廣結果容易出錯,如何提高增廣的準確率是亟需解決的問題。
發明內容
本發明的目的是提供一種圖像數據的增廣方法,實現減少人工篩選樣本數據集,提升篩選效率和篩選可靠性,提高神經網絡的準確性。
本發明提供的技術方案如下:
本發明提供一種圖像數據的增廣方法,包括步驟:
S1000獲取待篩選圖像集的類別信息對應的圖像數據;
S2000根據預設篩選策略和所述類別信息對應的樣本圖像,識別所述圖像數據;
S3000根據識別結果將所述圖像數據進行歸類得到圖像數據集;所述預設篩選策略包括相似度篩選,哈希值篩選和關鍵字篩選中的任意一種或者多種;
S4000對所述圖像數據集進行對抗訓練得到樣本數據集。
進一步的,所述步驟S2000包括步驟:
S2100計算當前圖像數據與所述樣本圖像之間的漢明距離;
S2200根據所述漢明距離,判斷所述當前圖像數據與樣本圖像之間的相似度是否達到預設相似度閾值;若是,執行步驟S2300;
S2300根據所述樣本圖像對應的類別信息標記所述當前圖像數據;
S2400切換下一當前圖像數據執行步驟S2100-S2400,直至所有圖像數據識別標記完成。
進一步的,所述步驟S2100包括步驟:
S2110縮小所述當前圖像數據的尺寸;
S2111將縮小尺寸后的當前圖像數據進行灰度處理;
S2112將縮小尺寸并灰度處理后的當前圖像數據等量分割為若干個圖像塊;
S2113計算所有圖像塊的灰度平均值;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于四川斐訊信息技術有限公司,未經四川斐訊信息技術有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810438780.6/2.html,轉載請聲明來源鉆瓜專利網。





