[發(fā)明專利]彎曲文本圖像的文字識別方法、裝置及計算機設(shè)備在審

申請?zhí)枺?/td>	202011312589.0	申請日：	2020-11-20
公開（公告）號：	CN112364873A	公開（公告）日：	2021-02-12
發(fā)明（設(shè)計）人：	朱錦祥;臧磊	申請（專利權(quán)）人：	深圳壹賬通智能科技有限公司
主分類號：	G06K9/34	分類號：	G06K9/34;G06K9/32;G06T3/00;G06T3/40;G06N3/04;G06N3/08
代理公司：	深圳市精英專利事務(wù)所 44242	代理人：	涂年影
地址：	518000 廣東省深圳市前海深港合作區(qū)前***	國省代碼：	廣東;44
權(quán)利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關(guān)鍵詞：	彎曲文本圖像文字識別方法裝置計算機設(shè)備
鉆瓜網(wǎng) 技術(shù)展會專利詞庫專利權(quán)人專利榜在售專利公布日期熱門專利

【說明書】：

本發(fā)明公開了一種彎曲文本圖像的文字識別方法、裝置及計算機設(shè)備，該方法包括：若接收到用戶輸入的文本圖像，對文本圖像進行預(yù)處理，得到預(yù)處理后的文本圖像；將預(yù)處理后的文本圖像進行特征提取，得到文本圖像的特征金字塔；對特征金字塔中每層特征圖進行圖像分割處理，得到文本圖像的多張分割掩碼圖；根據(jù)廣度優(yōu)先搜索算法對文本區(qū)域最小的分割掩碼圖進行擴展，得到可框定文本圖像中所有字符的第一文本框；將文本框進行仿射變換，得到仿射變換后的第二文本框；將仿射變換后的第二文本框內(nèi)的文字進行分類識別，得到文本圖像中的文字。本發(fā)明基于OCR識別技術(shù)，通過該方法不僅可以對圖像中的文本進行準(zhǔn)確的框定，而且提高了文字識別的準(zhǔn)確率。

技術(shù)領(lǐng)域

本發(fā)明屬于人工智能的文字識別技術(shù)領(lǐng)域，尤其涉及一種彎曲文本圖像的文字識別方法、裝置及計算機設(shè)備。

背景技術(shù)

OCR技術(shù)是指電子設(shè)備(例如掃描儀或數(shù)碼相機)檢查紙上打印的字符，通過檢測暗、亮的模式確定其形狀，然后用字符識別方法將形狀翻譯成計算機文字的過程。現(xiàn)有技術(shù)中，在對自然場景下的圖像進行文字識別時，由于圖像中的文本通常會被設(shè)計成彎曲的形狀，導(dǎo)致現(xiàn)有的OCR技術(shù)中無法通過矩形邊界框?qū)D像中的文本進行框定，嚴(yán)重影響文字識別的準(zhǔn)確率。

發(fā)明內(nèi)容

本發(fā)明實施例提供了一種彎曲文本圖像的文字識別方法、裝置及計算機設(shè)備，旨在解決現(xiàn)有的文本圖像中的彎曲文本無法通過矩形邊界框進行框定，導(dǎo)致文本圖像中的文字識別的準(zhǔn)確率低的問題。

第一方面，本發(fā)明實施例提供了一種彎曲文本圖像的文字識別方法，其包括：

若接收到用戶輸入的文本圖像，根據(jù)預(yù)設(shè)的第一處理規(guī)則對所述文本圖像進行預(yù)處理，得到預(yù)處理后的文本圖像；

將所述預(yù)處理后的文本圖像進行特征提取，得到所述文本圖像的特征金字塔；

根據(jù)預(yù)設(shè)的第二處理規(guī)則對所述特征金字塔中每層特征圖進行圖像分割處理，得到所述文本圖像的多張分割掩碼圖；

根據(jù)廣度優(yōu)先搜索算法對所述多張分割掩碼圖中文本區(qū)域最小的分割掩碼圖進行擴展，得到已框定所述文本圖像中所有字符的第一文本框；

將所述第一文本框進行仿射變換，得到仿射變換后的第二文本框；

將所述仿射變換后的第二文本框內(nèi)的文字進行分類識別，得到所述文本圖像中的文字。

第二方面，本發(fā)明實施例提供了一種彎曲文本圖像的文字識別裝置，其包括：

預(yù)處理單元，用于若接收到用戶輸入的文本圖像，根據(jù)預(yù)設(shè)的第一處理規(guī)則對所述文本圖像進行預(yù)處理，得到預(yù)處理后的文本圖像；

特征提取單元，用于將所述預(yù)處理后的文本圖像進行特征提取，得到所述文本圖像的特征金字塔；

分割單元，用于根據(jù)預(yù)設(shè)的第二處理規(guī)則對所述特征金字塔中每層特征圖進行圖像分割處理，得到所述文本圖像的多張分割掩碼圖；

第一擴展單元，用于根據(jù)廣度優(yōu)先搜索算法對所述多張分割掩碼圖中文本區(qū)域最小的分割掩碼圖進行擴展，得到已框定所述文本圖像中所有字符的第一文本框；

仿射變換單元，用于將所述第一文本框進行仿射變換，得到仿射變換后的第二文本框；

識別單元，用于將所述仿射變換后的第二文本框內(nèi)的文字進行分類識別，得到所述文本圖像中的文字。

第三方面，本發(fā)明實施例又提供了一種計算機設(shè)備，包括存儲器、處理器及存儲在所述存儲器上并可在所述處理器上運行的計算機程序，其特征在于，所述處理器執(zhí)行所述計算機程序時實現(xiàn)如上述第一方面所述的彎曲文本圖像的文字識別方法。

下載完整專利技術(shù)內(nèi)容需要扣除積分，VIP會員可以免費下載。

免登錄下載普通用戶下載升級VIP會員，免費下載

該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息，商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于深圳壹賬通智能科技有限公司，未經(jīng)深圳壹賬通智能科技有限公司許可，擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作，請聯(lián)系【客服】

本文鏈接：http://www.szxzyx.cn/pat/books/202011312589.0/2.html，轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。

上一篇：一種用于治療乳腺炎的外用膏藥貼及其制備方法
下一篇：一種燃燒器用石油伴生氣殘液分離過濾器及工作方法

同類專利

專利分類

G 物理

G06 計算；推算；計數(shù)
G06K 數(shù)據(jù)識別；數(shù)據(jù)表示；記錄載體；記錄載體的處理
G06K9-00 用于閱讀或識別印刷或書寫字符或者用于識別圖形，例如，指紋的方法或裝置
G06K9-03 .錯誤的檢測或校正，例如，用重復(fù)掃描圖形的方法
G06K9-18 .應(yīng)用具有附加代碼標(biāo)記或含有代碼標(biāo)記的打印字符的，例如，由不同形狀的各個筆畫組成的，而且每個筆畫表示不同的代碼值的字符
G06K9-20 .圖像捕獲
G06K9-36 .圖像預(yù)處理，即無須判定關(guān)于圖像的同一性而進行的圖像信息處理
G06K9-60 .圖像捕獲和多種預(yù)處理作用的組合

免登錄下載普通用戶下載升級VIP會員，免費下載

專利文獻(xiàn)下載

說明：

1、專利原文基于中國國家知識產(chǎn)權(quán)局專利說明書；

2、支持發(fā)明專利、實用新型專利、外觀設(shè)計專利（升級中）；

3、專利數(shù)據(jù)每周兩次同步更新，支持Adobe PDF格式；

4、內(nèi)容包括專利技術(shù)的結(jié)構(gòu)示意圖、流程工藝圖或技術(shù)構(gòu)造圖；

5、已全新升級為極速版,下載速度顯著提升！歡迎使用！

請您登陸后，進行下載，點擊【登陸】【注冊】