[發(fā)明專利]長微博圖片識別方法和裝置有效
| 申請?zhí)枺?/td> | 201610158219.3 | 申請日: | 2016-03-18 |
| 公開(公告)號: | CN107203764B | 公開(公告)日: | 2020-08-07 |
| 發(fā)明(設(shè)計)人: | 張明明;楊建武;于曉明 | 申請(專利權(quán))人: | 北大方正集團有限公司;北京大學(xué);北京北大方正電子有限公司 |
| 主分類號: | G06K9/32 | 分類號: | G06K9/32;G06K9/34 |
| 代理公司: | 北京同立鈞成知識產(chǎn)權(quán)代理有限公司 11205 | 代理人: | 孫明子;劉芳 |
| 地址: | 100871 北京市海*** | 國省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 長微博 圖片 識別 方法 裝置 | ||
本發(fā)明提供一種長微博圖片識別方法和裝置,該方法包括:獲取待識別微博圖片;將待識別微博圖像轉(zhuǎn)換為灰度圖片;對灰度圖片進行圖像形態(tài)學(xué)處理,其中,圖像形態(tài)學(xué)處理包括二值化處理、腐蝕和膨脹處理;對所述圖像形態(tài)學(xué)處理后的圖片進行文字行識別;當識別出的文字行數(shù)大于預(yù)設(shè)行數(shù)閾值時,確定待識別微博圖片為長微博圖片。基于對待識別微博圖片的圖像處理,以及有效文字行的識別處理,能夠準確而高效地識別出待識別微博圖片是否為長微博圖片。進而使得基于對長微博圖片的識別結(jié)果而進行的數(shù)據(jù)分析更加具有針對性,信息處理冗余度更低,數(shù)據(jù)分析處理效率更高。
技術(shù)領(lǐng)域
本發(fā)明屬于信息處理領(lǐng)域,尤其是涉及一種長微博圖片識別方法和裝置。
背景技術(shù)
隨著社交網(wǎng)絡(luò)的不斷發(fā)展,其在人們的日常生活中的作用愈發(fā)顯著,而微博作為一種重要的社交網(wǎng)絡(luò)媒介,越來越受到企業(yè)、政府宣傳部門的重視,通過分析大眾對事件的評價、傳播軌跡等,可以為決策者提供重要的參考。
人們可以在微博中發(fā)布自己就某事件的文字評論,也可以發(fā)布拍得的某個視頻畫面、圖片等各種不同承載形式的數(shù)據(jù)信息。受限于微博對文本字數(shù)的限制,以圖片形式發(fā)布文字信息的長微博(稱為長微博圖片),已經(jīng)成為微博中較為常見的一種信息承載方式。一般來說,如果某用戶以長微博圖片的方式對某事件進行評論,一般說明該用戶較為關(guān)注該事件,其評論相對于僅僅是附和地說一句兩句的用戶而言,可能具有更為重要的價值。因此在分析微博觀點等應(yīng)用中,長微博圖片是非常重要的分析對象。
長微博圖片本質(zhì)上就是一張圖片,對長微博圖片的文本數(shù)據(jù)內(nèi)容進行分析首先面臨的一個問題是:微博中的圖片數(shù)量非常大,而長微博圖片所占比例其實并不高,如果對所有的圖片都采用諸如光學(xué)字符識別(Optical Character Recognition,簡稱OCR)技術(shù)進行文本數(shù)據(jù)內(nèi)容的識別,進而進行數(shù)據(jù)分析,將會導(dǎo)致很低的處理效率。
發(fā)明內(nèi)容
針對上述存在的問題,本發(fā)明提供一種長微博圖片識別方法和裝置,用以實現(xiàn)從海量微博圖片中識別出長微博圖片。
本發(fā)明提供了一種長微博圖片識別方法,包括:
獲取待識別微博圖片;
將所述待識別微博圖像轉(zhuǎn)換為灰度圖片;
對所述灰度圖片進行圖像形態(tài)學(xué)處理,其中,所述圖像形態(tài)學(xué)處理包括二值化處理、腐蝕和膨脹處理;
對經(jīng)過所述圖像形態(tài)學(xué)處理后的圖片進行文字行識別;
當識別出的文字行數(shù)大于預(yù)設(shè)行數(shù)閾值時,確定所述待識別微博圖片為長微博圖片。
具體地,所述對經(jīng)過所述圖像形態(tài)學(xué)處理后的圖片進行文字行識別,包括:
計算經(jīng)過所述圖像形態(tài)學(xué)處理后的圖片的每個像素行中,文字像素所占比重,所述文字像素是指像素值與預(yù)設(shè)文字像素值相同的像素;
當相鄰預(yù)設(shè)行數(shù)的像素行的文字像素所占比重均大于預(yù)設(shè)比值時,確定所述相鄰預(yù)設(shè)行數(shù)的像素行所對應(yīng)的圖像區(qū)域?qū)?yīng)一個文字行。
可選地,所述對所述灰度圖片進行圖像形態(tài)學(xué)處理之前,所述方法還包括:
當所述灰度圖片的圖片寬度大于或等于預(yù)設(shè)寬度閾值時,對所述灰度圖片進行水平壓縮處理,以縮小所述灰度圖片的寬度。
可選地,所述對所述灰度圖片進行圖像形態(tài)學(xué)處理之前,所述方法還包括:
對所述灰度圖片進行預(yù)設(shè)剪裁比例的剪裁處理。
可選地,所述對所述灰度圖片進行圖像形態(tài)學(xué)處理之前,所述方法還包括:
計算所述灰度圖片的均值灰度;
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于北大方正集團有限公司;北京大學(xué);北京北大方正電子有限公司,未經(jīng)北大方正集團有限公司;北京大學(xué);北京北大方正電子有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201610158219.3/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 上一篇:一種汽車側(cè)圍門檻加強件總成
- 下一篇:一種方程式賽車的車身外殼
- 同類專利
- 專利分類
G06K 數(shù)據(jù)識別;數(shù)據(jù)表示;記錄載體;記錄載體的處理
G06K9-00 用于閱讀或識別印刷或書寫字符或者用于識別圖形,例如,指紋的方法或裝置
G06K9-03 .錯誤的檢測或校正,例如,用重復(fù)掃描圖形的方法
G06K9-18 .應(yīng)用具有附加代碼標記或含有代碼標記的打印字符的,例如,由不同形狀的各個筆畫組成的,而且每個筆畫表示不同的代碼值的字符
G06K9-20 .圖像捕獲
G06K9-36 .圖像預(yù)處理,即無須判定關(guān)于圖像的同一性而進行的圖像信息處理
G06K9-60 .圖像捕獲和多種預(yù)處理作用的組合





