[發明專利]一種基于計算機的低質量分類圖像數據清洗方法有效
| 申請號: | 201710665692.5 | 申請日: | 2017-08-07 |
| 公開(公告)號: | CN107423815B | 公開(公告)日: | 2020-07-31 |
| 發明(設計)人: | 李玉鑑;余華擎 | 申請(專利權)人: | 北京工業大學 |
| 主分類號: | G06N3/04 | 分類號: | G06N3/04;G06N3/08 |
| 代理公司: | 北京思海天達知識產權代理有限公司 11203 | 代理人: | 沈波 |
| 地址: | 100124 *** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 計算機 質量 分類 圖像 數據 清洗 方法 | ||
1.一種基于計算機的低質量分類圖像數據清洗方法,其特征在于:本方法包括以下步驟,a)從互聯網批量下載帶有標簽的圖像數據,整理得到共計M類的圖像數據集DataSet0,其中第i類包含的圖像數目為Ni,i=1,2,3…M;
b)用DataSet0訓練一個卷積神經網絡CNN0,具體步驟如下:
i.構建一個卷積神經網絡模型,并固定這個網絡模型的結構保持不變;
ii.對DataSet0隨機取一定比例作為卷積神經網絡的訓練集;
iii.將DataSet0中非訓練集的部分作為卷積神經網絡的測試集;
iv.訓練CNN0,迭代到指定次數后把網絡測試識別率記為Acc0;
c)在DataSet0中,對第i類圖像構造長度為Ni的一維圖像自識別數組Ki,具體步驟如下:
i.用CNN0對DataSet0的圖像數據進行識別,把其中第i類第j張圖像識別為第k類的偽概率記為pijk,k=1,2,3…M,并將這些偽概率從大到小排序;
ii.若排序后的前L個偽概率中存在k=i,則記自識別率Kij=pijk,否則記Kij=0;
d)分析自識別數組Ki,清洗第i類圖像數據里的低質量部分:
i.計算第i類圖像自識別率的平均值:
ii.計算第i類圖像自識別率的標準差:
iii.計算第i類圖像“低識別率”的分界值SepVal=μ-σ*α,1≤α≤10且為整數,且SepVal0;
iv.第i類圖像中,若有KijSepVal,則清洗掉第j張圖像;清洗完成后得到數據集DataSet1;
e)使用DataSet1再次進行同樣方式的卷積神經網絡訓練,得到網絡測試識別率Acc1,記錄并與Acc0比較并確認清洗是否有效;
f)在DataSet1中,重新對第i類圖像數量進行統計,記每類圖像數量為N'i,對N'i進行分析并清洗少數類別,以減少低質量數據類對卷積神經網絡的影響:
i.計算當前M類別圖像數量的平均值:
ii.計算當前M類別圖像數量的標準差:
iii.計算“少數類”圖像數量的分界值SepVal=μ-σ*α,1≤α≤10且為整數,且SepVal0;
iv.統計M類圖像中類別數量低于SepVal的類別共m類;
v.記m類數量總和為sum,M類數量總和為SUM;
vi.若m/M遠大于sum/SUM,則判定該m類為少數類,需要清洗處理掉;若m/M與sum/SUM數值接近,則認為m類數量正常,無需清洗處理;
g)用清洗過后的數據集DataSet2再次進行同樣方式的卷積神經網絡訓練,得到網絡測試識別率Acc2,記錄并與Acc1比較并確認清洗是否有效;
h)根據所得數據集情況,重復步驟d)和f),得到清洗后的數據類別共m′類,m′M;i)對于清洗后剩余的m′類共sum′張圖像數據的質量進行評價:
i.獲得該m′類在DataSet0里的所有數據,記總數量為SUM′,SUM′sum′;
ii.對總量為SUM′和sum′的m′類圖像數據進行同樣方式的卷積神經網絡訓練,得到網絡測試識別率Acc(SUM′)和Acc(sum′),若Acc(SUM′)Acc(sum′),則說明清洗后的數據更有利于卷積神經網絡的分類訓練;
iii.從總量為sum′的m′類數據中隨機或手動抽取一定的數據test作為公共測試集,以SUM′和sum′中除去test部分的數據作為訓練集,進行同樣方式的卷積神經網絡訓練,得到網絡測試識別率為Acc(SUM′)和Acc(sum′);若Acc(SUM′)Acc(sum′),則說明對于同樣的測試集,使用經過清洗的數據作為訓練集訓練所得到的卷積神經網絡泛化能力更強,測試識別率更高,即數據質量更高。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京工業大學,未經北京工業大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710665692.5/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種采用深度卷積神經網絡建立動態網絡模型的方法
- 下一篇:空氣凈化器





