[發(fā)明專利]基于半監(jiān)督的垃圾圖片過濾方法有效
| 申請?zhí)枺?/td> | 201210129234.7 | 申請日: | 2012-04-28 |
| 公開(公告)號: | CN102663435A | 公開(公告)日: | 2012-09-12 |
| 發(fā)明(設(shè)計(jì))人: | 張衛(wèi)豐;胡文婷;張迎周;周國強(qiáng);王慕妮;錢小燕;許碧歡;陸柳敏 | 申請(專利權(quán))人: | 南京郵電大學(xué) |
| 主分類號: | G06K9/62 | 分類號: | G06K9/62 |
| 代理公司: | 南京經(jīng)緯專利商標(biāo)代理有限公司 32200 | 代理人: | 葉連生 |
| 地址: | 210003 *** | 國省代碼: | 江蘇;32 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 基于 監(jiān)督 垃圾 圖片 過濾 方法 | ||
1.一種基于半監(jiān)督的垃圾圖片過濾方法,其特征在于該方法主要包括以下幾個(gè)部分:圖片中的文本、圖片特征提取及處理,預(yù)測樣本點(diǎn)的選擇,支持向量機(jī)分類器的訓(xùn)練;?
步驟1)提取未標(biāo)簽和已標(biāo)簽圖片樣本中的文本特征向量:??
步驟1.1)利用光學(xué)識別技術(shù)對樣本集合中的圖片進(jìn)行批量處理,得到圖片中的文字,
步驟1.2)用懷卡智能分析環(huán)境對步驟1.1)中的結(jié)果進(jìn)行處理,得到.arff格式的文件,文件中每一行的第一列代表一個(gè)圖像中的文字,第二列代表一個(gè)圖像的標(biāo)簽,作為圖像的文本特征向量,
步驟1.3)計(jì)算文本特征向量的R值,得到經(jīng)過處理的文本特征向量,計(jì)算公式如下:
?????(1)
其中t是一個(gè)特征,C是目標(biāo)分類,是非目標(biāo)分類,r是一個(gè)可調(diào)因子,在0到1間取值,是t在C中出現(xiàn)的概率,是t在中出現(xiàn)的概率,計(jì)算如下:
??????????(2)
?????????(3)
其中和分別是在C和中有t出現(xiàn)的文檔的個(gè)數(shù),和別是C和中的文檔數(shù);
步驟2)提取圖片特征向量:
采用“健壯特征的加速提取算法”提取樣本圖片的局部不變特征描述符,構(gòu)成圖片特征向量;
步驟3)主動學(xué)習(xí)提取預(yù)測樣本:
步驟3.1)用已標(biāo)簽的圖片集對支持向量機(jī)進(jìn)行訓(xùn)練,得到一個(gè)支持向量分類器,
步驟3.2)設(shè)支持向量機(jī)的線性函數(shù)為g(x)=?w(x)+b,其中x是樣本點(diǎn)的向量表示,w,b為常數(shù),
步驟3.3)定義一個(gè)樣本點(diǎn)到線性函數(shù)的距離為,并根據(jù)該公式計(jì)算未標(biāo)簽數(shù)據(jù)集中圖片樣本點(diǎn)的距離,選擇距離最近的未標(biāo)簽的樣本加入訓(xùn)練集,以此得到更新后的訓(xùn)練集;
步驟4)訓(xùn)練支持向量機(jī):
用更新后的訓(xùn)練集,對原支持向量機(jī)算法模型進(jìn)行訓(xùn)練,當(dāng)訓(xùn)練所得支持向量機(jī)的分類精確度與訓(xùn)練前分類器精確度趨于一致時(shí),分類器已趨于穩(wěn)定,此時(shí),停止訓(xùn)練;否則,返回步驟3.3)計(jì)算得到離超平面最近的樣本點(diǎn),計(jì)入并更新訓(xùn)練集合,繼續(xù)訓(xùn)練分類器,直至分類器趨于穩(wěn)定;
步驟5)用最終訓(xùn)練得到的分類器對未標(biāo)簽樣本集合進(jìn)行分類,得到高精確且穩(wěn)定的分類結(jié)果。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于南京郵電大學(xué),未經(jīng)南京郵電大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201210129234.7/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 上一篇:同步發(fā)電機(jī)-極組
- 下一篇:無線供電裝置及其控制方法
- 同類專利
- 專利分類
G06K 數(shù)據(jù)識別;數(shù)據(jù)表示;記錄載體;記錄載體的處理
G06K9-00 用于閱讀或識別印刷或書寫字符或者用于識別圖形,例如,指紋的方法或裝置
G06K9-03 .錯(cuò)誤的檢測或校正,例如,用重復(fù)掃描圖形的方法
G06K9-18 .應(yīng)用具有附加代碼標(biāo)記或含有代碼標(biāo)記的打印字符的,例如,由不同形狀的各個(gè)筆畫組成的,而且每個(gè)筆畫表示不同的代碼值的字符
G06K9-20 .圖像捕獲
G06K9-36 .圖像預(yù)處理,即無須判定關(guān)于圖像的同一性而進(jìn)行的圖像信息處理
G06K9-60 .圖像捕獲和多種預(yù)處理作用的組合
- 在即時(shí)通信中提供即時(shí)監(jiān)督功能的方法及系統(tǒng)
- 一種監(jiān)督事件的生成裝置
- 一種資產(chǎn)托管監(jiān)督任務(wù)的處理方法及裝置
- 一種監(jiān)督方法及裝置
- 基于自監(jiān)督學(xué)習(xí)的標(biāo)簽比例學(xué)習(xí)模型的訓(xùn)練方法和設(shè)備
- 一種衛(wèi)生監(jiān)督對象尋址方法、電子設(shè)備及存儲介質(zhì)
- 一種機(jī)器人表情調(diào)用方法和家用機(jī)器人
- 計(jì)算機(jī)視覺訓(xùn)練系統(tǒng)和用于訓(xùn)練計(jì)算機(jī)視覺系統(tǒng)的方法
- 一種基于廠區(qū)智能管理系統(tǒng)的工廠設(shè)備監(jiān)督系統(tǒng)
- 信息化綜合監(jiān)督系統(tǒng)及方法





