[發(fā)明專利]一種快速判斷文字微博的方法無效
| 申請?zhí)枺?/td> | 201310152286.0 | 申請日: | 2013-04-27 |
| 公開(公告)號: | CN103246885A | 公開(公告)日: | 2013-08-14 |
| 發(fā)明(設(shè)計)人: | 田海;朱啟兵;陸玉傳 | 申請(專利權(quán))人: | 南京訊思雅信息科技有限公司 |
| 主分類號: | G06K9/20 | 分類號: | G06K9/20;G06K9/00 |
| 代理公司: | 南京經(jīng)緯專利商標代理有限公司 32200 | 代理人: | 朱小兵 |
| 地址: | 211100 江蘇省南京*** | 國省代碼: | 江蘇;32 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 快速 判斷 文字 方法 | ||
技術(shù)領(lǐng)域
本發(fā)明公開了一種快速判斷文字微博的方法,屬于計算機視覺技術(shù)領(lǐng)域。
背景技術(shù)
微博作為一種新型的信息交互平臺,已經(jīng)擁有非??捎^的用戶群。但凡任何(群體)事件的發(fā)生,都伴隨著微博信息的快速轉(zhuǎn)發(fā)。由于純文字易于判斷和檢測,例如使用關(guān)鍵字,很多微博用戶將長段文字塊轉(zhuǎn)換成圖片(俗稱長微博)進行轉(zhuǎn)發(fā)和傳遞。由于圖片的識別和檢測還不及文字檢測匹配的精度,因此給信息安全帶來一定的考驗。現(xiàn)有的采用文字檢測的方法,無法檢測圖片里面的文字。更加無法使用關(guān)鍵字匹配,給信息安全帶來了很大的隱患。此外,目前的圖片匹配只能應(yīng)用簡單的物體匹配,無法精確到內(nèi)嵌文字,更加無法提取關(guān)鍵字。
發(fā)明內(nèi)容
本發(fā)明所要解決的技術(shù)問題是:針對目前技術(shù)的不足之處,利用邊角檢測算法判斷出檢測的圖片是不是長微博。
本發(fā)明為解決上述技術(shù)問題采用以下技術(shù)方案:一種快速判斷文字微博的方法,具體步驟如下:
步驟1.?選取一幅待測圖片,檢測所述待測圖片中的Harris邊角點并統(tǒng)計邊角點個數(shù);
步驟2.?將待測圖片平均分成N個條帶,統(tǒng)計每個條帶中含有的Harris邊角點個數(shù),其中,N的取值為自然數(shù);
步驟3.?判斷邊角點最多的條帶是否包含文字:
(301)如果邊角點最多的條帶不包含文字,則判斷待測圖片不包含長段文字;
(302)如果邊角點最多的條帶包含文字,進入步驟4;
步驟4.判斷邊角點最多的條帶的相鄰條帶是否包含文字:
(401)如果邊角點最多的條帶的相鄰條帶不包含文字,則判斷待測圖片不包含長段文字;
(402)如果邊角點最多的條帶的相鄰條帶包含文字,則判斷待測圖片包含長段文字。
進一步的,所述步驟3的判斷過程,具體如下:
步驟1.統(tǒng)計條帶中相鄰的2個Harris邊角點之間的距離T;
步驟2.統(tǒng)計條帶中最左邊的Harris邊角點與圖片左側(cè)邊的距離T1,以及條帶中最右邊的邊角點與圖片右側(cè)邊的距離T2;
步驟3.設(shè)定條帶的寬度為A,當同時滿足下述條件時,判斷條帶包含文字,否則判斷該條帶不包含文字:
a.????????????????????????????????????????????????;
b.;
c.。
進一步的,步驟2中所述的將待測圖片沿水平方向平均分成N個條帶,N的取值為10。
所述步驟2中,優(yōu)選將待測圖片沿水平方向或豎直方向平均分成N個條帶,統(tǒng)計每個條帶中含有的Harris邊角點個數(shù),其中,N的取值為自然數(shù)。
本發(fā)明采用以上技術(shù)方案與現(xiàn)有技術(shù)相比,具有以下技術(shù)效果:準確的判斷所檢測的圖片是否屬于長微博,進而可以利用目前成熟的OCR技術(shù)將長微博圖片轉(zhuǎn)換為文字,針對文字進行關(guān)鍵字匹配和檢索。
附圖說明
圖1是本發(fā)明所使用檢測方法的流程圖。
圖2是檢測條帶是否包含文字的判斷邏輯示意圖。
圖3是長微博實例示意圖。
圖4是未經(jīng)處理的待檢測圖片。
圖5是待檢測圖片經(jīng)Harris檢測算法進行興趣點標注后的示意圖。
圖6是待檢測圖片標注后劃分為條帶進行進一步處理示意圖。
具體實施方式
下面結(jié)合附圖對本發(fā)明的技術(shù)方案做進一步的詳細說明:
普通圖片和長微博在內(nèi)容上有著非常大的區(qū)別,主要包括:普通圖片有著連續(xù)的像素分布,而長微博像素比較單一;普通圖片中邊角較少(相對整個圖片),而長微博由于文字的緣故含有大量的邊角。如圖3所示,由于大量文字的特性,必然會存在很多邊角點。
根據(jù)上述的原理描述,由于文字的特征,通常會含有很多的邊角(corners)。因此,利用常見的邊角檢測算法,例如Harris,可以統(tǒng)計一個圖像塊里面含有的邊角數(shù)量。當該數(shù)量超過一定的閾值之后,可以認定該圖片為長微博圖片。
在實際實現(xiàn)中,輸入圖片首先被分為N(例如N可以取10)個不重疊的條帶,每個條帶占據(jù)整個圖片寬度,但是1/N的圖片高度。對每一分塊使用Harris算法提取邊角點為興趣點。統(tǒng)計每個條帶中的興趣點個數(shù),對于興趣點最多的條帶以及該條帶相鄰的條帶,如果這兩個條帶都滿足下面的條件:“該條帶中相鄰兩個興趣點的水平距離都小于一個閾值”(例如圖像寬度的1/70),那么認為這2個條帶中都有文字,從而該圖像是長微博。
本發(fā)明所使用檢測方法的流程圖如圖1所示。
步驟1:讀取一幅任意格式的圖像;
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于南京訊思雅信息科技有限公司,未經(jīng)南京訊思雅信息科技有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201310152286.0/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 同類專利
- 專利分類
G06K 數(shù)據(jù)識別;數(shù)據(jù)表示;記錄載體;記錄載體的處理
G06K9-00 用于閱讀或識別印刷或書寫字符或者用于識別圖形,例如,指紋的方法或裝置
G06K9-03 .錯誤的檢測或校正,例如,用重復(fù)掃描圖形的方法
G06K9-18 .應(yīng)用具有附加代碼標記或含有代碼標記的打印字符的,例如,由不同形狀的各個筆畫組成的,而且每個筆畫表示不同的代碼值的字符
G06K9-20 .圖像捕獲
G06K9-36 .圖像預(yù)處理,即無須判定關(guān)于圖像的同一性而進行的圖像信息處理
G06K9-60 .圖像捕獲和多種預(yù)處理作用的組合





