[發(fā)明專利]基于眾包主動學(xué)習(xí)用于檢測異常圖片的方法有效
| 申請?zhí)枺?/td> | 201510540432.6 | 申請日: | 2015-08-28 |
| 公開(公告)號: | CN105205503B | 公開(公告)日: | 2018-09-18 |
| 發(fā)明(設(shè)計)人: | 萬里;洪敏;白金龍;李麗麗 | 申請(專利權(quán))人: | 重慶恢恢信息技術(shù)有限公司 |
| 主分類號: | G06K9/66 | 分類號: | G06K9/66 |
| 代理公司: | 重慶市前沿專利事務(wù)所(普通合伙) 50211 | 代理人: | 路寧 |
| 地址: | 400700 重慶市北碚區(qū)*** | 國省代碼: | 重慶;50 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 基于 主動 學(xué)習(xí) 用于 檢測 異常 圖片 方法 | ||
1.一種基于眾包主動學(xué)習(xí)用于檢測異常圖片的方法,其特征在于,包括如下步驟:
S1,獲取圖像特征,從圖像特征中提取二進(jìn)制向量,選取色調(diào)和飽和度作為圖像特征,合并色調(diào)和飽和度圖像特征來形成一個二維色調(diào)飽和度直方圖;
S2,計算每個圖像特征周圍的已標(biāo)記樣本密度,對已標(biāo)記樣本密度低于閾值的樣本,計算信息熵,選擇信息熵最大的樣本放到眾包平臺,由用戶進(jìn)行標(biāo)記;
S3,根據(jù)眾包平臺用戶的標(biāo)記和結(jié)果可信度計算方法,確定樣本的標(biāo)簽,并臨時放入訓(xùn)練集,根據(jù)可信分類迭代算法,確定該標(biāo)記樣本最終是否采用,并更新眾包平臺用戶的信用度,并經(jīng)由眾包平臺返回給用戶,輸出初始分類器,當(dāng)初始分類器達(dá)到一定閾值后執(zhí)行S4;
S4,當(dāng)S1-S3步驟執(zhí)行完畢后,輸出標(biāo)記訓(xùn)練集,輸出最終分類器;
所述S2標(biāo)記樣本密度步驟包括:
圖像特征集合為H={H1,H2,…,Hk},其中樣本集Hi={Hi1,Hi2,…,Hij-1,Hij,Hij+1,…,Hil},對于樣本Hij,在Hi中Hij-ε至Hij+ε范圍內(nèi)查看已被標(biāo)記的樣本數(shù)量AN,并根據(jù)如下公式,計算其周圍被標(biāo)記樣本的密度,D(Hij)=AN/2ε,ε為樣本圖像特征數(shù)量。
2.根據(jù)權(quán)利要求1所述的基于眾包主動學(xué)習(xí)用于檢測異常圖片的方法,其特征在于,所述S1包括:
取一個二進(jìn)制向量表示W(wǎng)CE圖像特征,顏色空間選擇HSI顏色空間,選取色調(diào)和飽和度信息作為特征;
合并色調(diào)和飽和度圖像特征來形成一個二維色調(diào)飽和度直方圖。
3.根據(jù)權(quán)利要求1所述的基于眾包主動學(xué)習(xí)用于檢測異常圖片的方法,其特征在于,所述S2進(jìn)行信息熵計算步驟包括:
基于時序密度表示為:
其中,p(yi|xj)表示在給定樣本xj情況下其標(biāo)簽屬于yi的可能性,T(xj|S)表示樣本在集合S中的時序密度,S表示x在已標(biāo)記樣本集中的領(lǐng)域集合;
對于樣本集合X={x1,x2,…,xn},中的樣本xn,通過計算X中所有樣本之間的距離并求其平均得到avg_distance,
其中n為正整數(shù),d(xi,xj)指代樣本之間距離度量,xi,xj為樣本,下標(biāo)i、j為正整數(shù),i<j;
定義1:樣本集合X={x1,x2,…,xn},中樣本xi的鄰域樣本集合表示為:
N(xj|X)={xj|xj∈X(x1,x2,…,xi-1,xi+1,…,xn)},d(xi,xj)≤avg_distance (4)
其中d(xi,xj)為樣本之間距離度量,選取歐式距離;
定義2:標(biāo)記函數(shù)I
計算樣本xi在已標(biāo)記樣本集合S中的領(lǐng)域集合為N(x|S)={x1,x2,…,xn},其對應(yīng)標(biāo)簽為Y={y1,y2,…,yn},則
計算樣本xi在已標(biāo)記樣本集合S中的領(lǐng)域集合為N(x|S)={x1,x2,…,xn},其中N(x|S)中和樣本xi屬于同一圖像特征的集合為統(tǒng)計X1在圖像特征中位于樣本xi前后ε范圍內(nèi)的樣本數(shù)量SN,則
樣本xi在集合S中的時序密度T(xi|S)=SN/2ε;
密度熵計算
計算未標(biāo)記樣本xn在未標(biāo)記集合C中的近鄰樣本集合N(xi|UN)={x1,x2,…,xn};
則其未標(biāo)記樣本xn的近鄰密度表示為:
其中N(xi)為樣本xi的鄰域樣本集合,φi表示N(xi)的某個元素,N表示N(xi)中樣本的總數(shù);
對信息熵計算,樣本包含的信息量表示為時序密度、近鄰熵與近鄰密度的乘積:
Information(x)=H(xj)*p(xi)*(1-D(Hij));
在未標(biāo)記樣本集合UN中選擇信息熵最大的樣本xn進(jìn)行標(biāo)記,
L(xi)=arg max Information(UN)。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于重慶恢恢信息技術(shù)有限公司,未經(jīng)重慶恢恢信息技術(shù)有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201510540432.6/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 同類專利
- 專利分類
G06K 數(shù)據(jù)識別;數(shù)據(jù)表示;記錄載體;記錄載體的處理
G06K9-00 用于閱讀或識別印刷或書寫字符或者用于識別圖形,例如,指紋的方法或裝置
G06K9-03 .錯誤的檢測或校正,例如,用重復(fù)掃描圖形的方法
G06K9-18 .應(yīng)用具有附加代碼標(biāo)記或含有代碼標(biāo)記的打印字符的,例如,由不同形狀的各個筆畫組成的,而且每個筆畫表示不同的代碼值的字符
G06K9-20 .圖像捕獲
G06K9-36 .圖像預(yù)處理,即無須判定關(guān)于圖像的同一性而進(jìn)行的圖像信息處理
G06K9-60 .圖像捕獲和多種預(yù)處理作用的組合
- 根據(jù)用戶學(xué)習(xí)效果動態(tài)變化下載學(xué)習(xí)數(shù)據(jù)的系統(tǒng)及方法
- 用于智能個人化學(xué)習(xí)服務(wù)的方法
- 漸進(jìn)式學(xué)習(xí)管理方法及漸進(jìn)式學(xué)習(xí)系統(tǒng)
- 輔助學(xué)習(xí)的方法及裝置
- 基于人工智能的課程推薦方法、裝置、設(shè)備及存儲介質(zhì)
- 基于強(qiáng)化學(xué)習(xí)的自適應(yīng)移動學(xué)習(xí)路徑生成方法
- 一種線上視頻學(xué)習(xí)系統(tǒng)
- 一種基于校園大數(shù)據(jù)的自適應(yīng)學(xué)習(xí)方法、裝置及設(shè)備
- 一種學(xué)習(xí)方案推薦方法、裝置、設(shè)備和存儲介質(zhì)
- 游戲?qū)W習(xí)效果評測方法及系統(tǒng)





