[發(fā)明專利]對(duì)實(shí)景圖像中的字符進(jìn)行識(shí)別的方法和設(shè)備在審
| 申請(qǐng)?zhí)枺?/td> | 201410187592.2 | 申請(qǐng)日: | 2014-05-06 |
| 公開(公告)號(hào): | CN105095832A | 公開(公告)日: | 2015-11-25 |
| 發(fā)明(設(shè)計(jì))人: | 張慶久;樂寧 | 申請(qǐng)(專利權(quán))人: | 夏普株式會(huì)社 |
| 主分類號(hào): | G06K9/00 | 分類號(hào): | G06K9/00;G06K9/20;G06T5/00 |
| 代理公司: | 中科專利商標(biāo)代理有限責(zé)任公司 11021 | 代理人: | 王瑋 |
| 地址: | 日本國*** | 國省代碼: | 日本;JP |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 實(shí)景 圖像 中的 字符 進(jìn)行 識(shí)別 方法 設(shè)備 | ||
技術(shù)領(lǐng)域
本申請(qǐng)總體涉及光學(xué)字符識(shí)別OCR技術(shù),具體涉及對(duì)實(shí)景圖像中的字符進(jìn)行識(shí)別的方法和設(shè)備。
背景技術(shù)
除了識(shí)別算法本身的性能以外,傳統(tǒng)OCR技術(shù)對(duì)圖像中字符的識(shí)別準(zhǔn)確度還取決于待處理圖像的復(fù)雜度、文字所在平面與圖像呈現(xiàn)平面的平行度、以及圖像中文字的平正程度。為了使識(shí)別準(zhǔn)確度達(dá)到可接受的程度,通常要求待處理圖像中僅包含一頁文字,該頁文字與圖像呈現(xiàn)平面基本平行,且圖像中的文字基本平正(即,非歪斜)擺放。
在實(shí)際應(yīng)用中,用戶可能希望對(duì)日常拍攝的實(shí)景圖像中的文字(例如街拍場景中某一透視投影的標(biāo)牌上的文字)進(jìn)行光學(xué)識(shí)別,并可能希望對(duì)其進(jìn)行文字處理。然而,由于日常拍攝的實(shí)景圖像的構(gòu)圖通常較為復(fù)雜、實(shí)體對(duì)象較多、實(shí)景平面與圖像呈現(xiàn)平面夾角較大(由于透視投影導(dǎo)致)、文字傾斜度較大,識(shí)別準(zhǔn)確度難以達(dá)到令人滿意的程度。
題為“GeneratingHi-ResDewarpedBookImages”的美國專利申請(qǐng)US20130242054A1提出了一種對(duì)書本立體圖像去除扭曲的方法。該方法利用三維幾何表面(例如圓柱表面)產(chǎn)生3D信息,而無需使用文本行或其他內(nèi)容分析。具體地,在捕捉到立體圖像后,首先根據(jù)立體照片產(chǎn)生三維幾何平面。然后,計(jì)算相應(yīng)的模型。接著,由模型對(duì)立體圖像去除扭曲。
雖然上述方案能夠提高對(duì)書頁中文字的識(shí)別準(zhǔn)確度,還是難于處理具有復(fù)雜場景的實(shí)體圖像。
發(fā)明內(nèi)容
鑒于現(xiàn)有技術(shù)的上述問題和缺陷,本發(fā)明的目的在于提出一種能夠以較高的識(shí)別準(zhǔn)確度對(duì)實(shí)景圖像中的字符進(jìn)行識(shí)別的方案。
根據(jù)本發(fā)明的第一方面,提供了一種對(duì)實(shí)景圖像中的字符進(jìn)行識(shí)別的方法,包括:獲取實(shí)景圖像和深度圖,所述深度圖中的每個(gè)像素表示與實(shí)景圖像中的像素相對(duì)應(yīng)的實(shí)景點(diǎn)到攝像機(jī)的距離;根據(jù)深度圖,檢測(cè)出實(shí)景圖像中的實(shí)景平面;對(duì)檢測(cè)到的平面進(jìn)行校正,使得平面中的字符易于識(shí)別;以及對(duì)校正后的平面中的字符進(jìn)行識(shí)別。
根據(jù)深度圖檢測(cè)出實(shí)景圖像中的實(shí)景平面可以包括:基于深度圖中相鄰像素的深度差,檢測(cè)實(shí)景圖像中的連通體;利用檢測(cè)出的連通體各像素的坐標(biāo)及對(duì)應(yīng)的深度值,進(jìn)行平面擬合;濾除連通體的位于擬合平面以外的像素;以及確定包圍連通體的剩余像素的凸多邊形。如果相鄰像素的深度差小于閾值,則可以將相鄰像素確定為屬于同一連通體。平面擬合可以采用最小二乘法。
所述方法還可以包括:基于檢測(cè)出的連通體的面積、平均深度和/或在實(shí)景圖像中的相對(duì)位置,濾除噪聲連通體。
對(duì)檢測(cè)到的平面進(jìn)行校正可以包括:在三維空間中調(diào)整檢測(cè)到的平面的傾斜姿態(tài),使其處于與顯示平面平行的狀態(tài);以及在顯示平面所對(duì)應(yīng)的二維空間中旋轉(zhuǎn)經(jīng)調(diào)整的平面,使其中的文字平正顯示。
在三維空間中調(diào)整檢測(cè)到的平面的傾斜姿態(tài)可以包括:基于平面擬合得到的平面參數(shù),計(jì)算出使檢測(cè)到的平面旋轉(zhuǎn)為與顯示平面平行的平面的透視變換矩陣;對(duì)實(shí)景圖像的與檢測(cè)到的平面相對(duì)應(yīng)的部分的像素應(yīng)用所述透視變換矩陣。
根據(jù)本發(fā)明的第二方面,提供了一種對(duì)實(shí)景圖像中的字符進(jìn)行識(shí)別的設(shè)備,包括:圖像獲取裝置,用于獲取實(shí)景圖像和深度圖,所述深度圖中的每個(gè)像素表示與實(shí)景圖像中的像素相對(duì)應(yīng)的實(shí)景點(diǎn)到攝像機(jī)的距離;平面檢測(cè)裝置,用于根據(jù)深度圖,檢測(cè)出實(shí)景圖像中的實(shí)景平面;平面校正裝置,用于對(duì)檢測(cè)到的平面進(jìn)行校正,使得平面中的字符易于識(shí)別;以及字符識(shí)別裝置,用于對(duì)校正后的平面中的字符進(jìn)行識(shí)別。
所述平面檢測(cè)裝置可以包括:連通體檢測(cè)單元,被配置為基于深度圖中相鄰像素的深度差,檢測(cè)實(shí)景圖像中的連通體;平面擬合單元,被配置為利用檢測(cè)出的連通體各像素的坐標(biāo)及對(duì)應(yīng)的深度值,進(jìn)行平面擬合;噪聲過濾單元,被配置為濾除連通體的位于擬合平面以外的像素;以及確定單元,被配置為確定包圍連通體的剩余像素的凸多邊形。如果相鄰像素的深度差小于閾值,則可以將相鄰像素確定為屬于同一連通體。平面擬合可以采用最小二乘法。
所述噪聲過濾單元還可以被配置為:基于檢測(cè)出的連通體的面積、平均深度和/或在實(shí)景圖像中的相對(duì)位置,濾除噪聲連通體。
所述平面校正裝置可以包括:三維傾斜校正單元,被配置為在三維空間中調(diào)整檢測(cè)到的平面的傾斜姿態(tài),使其處于與顯示平面平行的狀態(tài);以及二維歪斜校正單元,被配置為在顯示平面所對(duì)應(yīng)的二維空間中旋轉(zhuǎn)經(jīng)調(diào)整的平面,使其中的文字平正顯示。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于夏普株式會(huì)社,未經(jīng)夏普株式會(huì)社許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201410187592.2/2.html,轉(zhuǎn)載請(qǐng)聲明來源鉆瓜專利網(wǎng)。
- 同類專利
- 專利分類
G06K 數(shù)據(jù)識(shí)別;數(shù)據(jù)表示;記錄載體;記錄載體的處理
G06K9-00 用于閱讀或識(shí)別印刷或書寫字符或者用于識(shí)別圖形,例如,指紋的方法或裝置
G06K9-03 .錯(cuò)誤的檢測(cè)或校正,例如,用重復(fù)掃描圖形的方法
G06K9-18 .應(yīng)用具有附加代碼標(biāo)記或含有代碼標(biāo)記的打印字符的,例如,由不同形狀的各個(gè)筆畫組成的,而且每個(gè)筆畫表示不同的代碼值的字符
G06K9-20 .圖像捕獲
G06K9-36 .圖像預(yù)處理,即無須判定關(guān)于圖像的同一性而進(jìn)行的圖像信息處理
G06K9-60 .圖像捕獲和多種預(yù)處理作用的組合
- 多量網(wǎng)絡(luò)無線攝影與實(shí)時(shí)實(shí)景影像販賣架構(gòu)
- 一種道路實(shí)景采集方法
- 實(shí)景取色方法、系統(tǒng)和裝置
- 多源定位實(shí)景信息采集系統(tǒng)
- 多源定位實(shí)景信息采集系統(tǒng)
- 圖片讀取方法及裝置
- 一種基于5G技術(shù)的實(shí)景導(dǎo)航系統(tǒng)和方法
- 一種可量測(cè)實(shí)景圖片的生成方法、裝置、計(jì)算機(jī)設(shè)備
- 一種實(shí)景地圖生成方法、裝置、設(shè)備及可讀存儲(chǔ)介質(zhì)
- 基于實(shí)景搭建方法及相關(guān)產(chǎn)品
- 彩色圖像和單色圖像的圖像處理
- 圖像編碼/圖像解碼方法以及圖像編碼/圖像解碼裝置
- 圖像處理裝置、圖像形成裝置、圖像讀取裝置、圖像處理方法
- 圖像解密方法、圖像加密方法、圖像解密裝置、圖像加密裝置、圖像解密程序以及圖像加密程序
- 圖像解密方法、圖像加密方法、圖像解密裝置、圖像加密裝置、圖像解密程序以及圖像加密程序
- 圖像編碼方法、圖像解碼方法、圖像編碼裝置、圖像解碼裝置、圖像編碼程序以及圖像解碼程序
- 圖像編碼方法、圖像解碼方法、圖像編碼裝置、圖像解碼裝置、圖像編碼程序、以及圖像解碼程序
- 圖像形成設(shè)備、圖像形成系統(tǒng)和圖像形成方法
- 圖像編碼裝置、圖像編碼方法、圖像編碼程序、圖像解碼裝置、圖像解碼方法及圖像解碼程序
- 圖像編碼裝置、圖像編碼方法、圖像編碼程序、圖像解碼裝置、圖像解碼方法及圖像解碼程序





