[發(fā)明專利]文本區(qū)域的確定方法、裝置、設備及可讀存儲介質有效

申請?zhí)枺?/td>	202110274178.5	申請日：	2021-03-15
公開（公告）號：	CN113076814B	公開（公告）日：	2022-02-25
發(fā)明（設計）人：	石世昌;黃飛	申請（專利權）人：	騰訊科技（深圳）有限公司
主分類號：	G06V30/412	分類號：	G06V30/412;G06V30/14;G06V30/146;G06V30/18;G06V30/19;G06K9/62
代理公司：	北京三高永信知識產權代理有限責任公司 11138	代理人：	祝亞男
地址：	518057 廣東省深圳***	國省代碼：	廣東;44
權利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關鍵詞：	文本區(qū)域確定方法裝置設備可讀存儲介質
鉆瓜網技術展會專利詞庫專利權人專利榜在售專利公布日期熱門專利

【說明書】：

本申請公開了一種文本區(qū)域的確定方法、裝置、設備及可讀存儲介質，涉及機器學習領域。該方法包括：獲取目標圖像；對目標圖像進行文本識別，得到區(qū)域中心預測結果和區(qū)域邊緣預測結果；對區(qū)域中心預測結果和區(qū)域邊緣預測結果進行邏輯結合，得到目標圖像中的文本連通區(qū)域；基于文本連通區(qū)域確定文本內容在目標圖像中的文本區(qū)域。在對圖像進行文本識別時，同時識別得到用于表示文本區(qū)域的中心預測結果和用于表示邊緣的邊緣預測結果，從而通過對中心預測結果和邊緣預測結果的邏輯結合對文本區(qū)域的預測進行修正，并最終得到文本區(qū)域，在兩層檢測結果的優(yōu)化下，文本區(qū)域的檢測準確率較高，從而后續(xù)基于文本區(qū)域進行文本內容處理的效率和準確率也較高。

技術領域

本申請實施例涉及機器學習領域，特別涉及一種文本區(qū)域的確定方法、裝置、設備及可讀存儲介質。

背景技術

光學字符識別(Optical Character Recognition，OCR)是一種對圖像中的字符進行識別的功能。通常，用戶將帶有字符的圖像輸入到光學字符識別模塊，并得到輸出結果。該輸出結果中包括識別得到的圖像中的字符。OCR技術可以應用于圖像轉檔中，而在圖像轉檔場景下，在OCR識別之前首先需要對圖像中的存在文本的區(qū)域進行檢測。

相關技術中，在文本區(qū)域的檢測過程中，通常采用神經網絡模型直接預測文本區(qū)域的信息，如：基于分割的文本行檢測方法(pixel-link)是通過預測每個像素是否屬于文本區(qū)域，然后根據(jù)像素之間的關系對文本區(qū)域進行合并后，檢測得到文本區(qū)域的。

然而，上述方式中，基于分割的文字檢測方案檢測準確率較低，容易出現(xiàn)虛警的問題，故檢測得到結果后的后續(xù)處理過程較為復雜，導致文本區(qū)域的檢測準確率低，從而文本內容處理的效率低。

發(fā)明內容

本申請實施例提供了一種文本區(qū)域的確定方法、裝置、設備及可讀存儲介質，能夠提高文本區(qū)域的檢測準確率以及效率。所述技術方案如下：

一方面，提供了一種文本區(qū)域的確定方法，所述方法包括：

獲取目標圖像，所述目標圖像中包括文本內容，所述目標圖像為所述文本內容所在的文本區(qū)域待確定的圖像；

對所述目標圖像進行文本識別，得到區(qū)域中心預測結果和區(qū)域邊緣預測結果，所述區(qū)域中心預測結果表示預測得到的所述文本區(qū)域所處的區(qū)域范圍，所述區(qū)域邊緣預測結果表示預測得到的所述文本區(qū)域的邊緣位置；

對所述區(qū)域中心預測結果和所述區(qū)域邊緣預測結果進行邏輯結合，得到所述目標圖像中的文本連通區(qū)域，所述文本連通區(qū)域表示具有連通關系的所述文本內容在所述目標圖像中的區(qū)域；

基于所述文本連通區(qū)域確定所述文本內容在所述目標圖像中的所述文本區(qū)域。

另一方面，提供了一種文本區(qū)域的確定裝置，所述裝置包括：

獲取模塊，用于獲取目標圖像，所述目標圖像中包括文本內容，所述目標圖像為所述文本內容所在的文本區(qū)域待確定的圖像；

識別模塊，用于對所述目標圖像進行文本識別，得到區(qū)域中心預測結果和區(qū)域邊緣預測結果，所述區(qū)域中心預測結果表示預測得到的所述文本區(qū)域所處的區(qū)域范圍，所述區(qū)域邊緣預測結果表示預測得到的所述文本區(qū)域的邊緣位置；

處理模塊，用于對所述區(qū)域中心預測結果和所述區(qū)域邊緣預測結果進行邏輯結合，得到所述目標圖像中的文本連通區(qū)域，所述文本連通區(qū)域表示具有連通關系的所述文本內容在所述目標圖像中的區(qū)域；

確定模塊，用于基于所述文本連通區(qū)域確定所述文本內容在所述目標圖像中的所述文本區(qū)域。

在一個可選的實施例中，所述處理模塊，包括：

生成單元，用于基于所述區(qū)域中心預測結果生成區(qū)域二值圖；

所述生成單元，還用于基于所述區(qū)域邊緣預測結果生成邊緣二值圖；

下載完整專利技術內容需要扣除積分，VIP會員可以免費下載。

免登錄下載普通用戶下載升級VIP會員，免費下載

該專利技術資料僅供研究查看技術是否侵權等信息，商用須獲得專利權人授權。該專利全部權利屬于騰訊科技（深圳）有限公司，未經騰訊科技（深圳）有限公司許可，擅自商用是侵權行為。如果您想購買此專利、獲得商業(yè)授權和技術合作，請聯(lián)系【客服】

本文鏈接：http://www.szxzyx.cn/pat/books/202110274178.5/2.html，轉載請聲明來源鉆瓜專利網。

上一篇：一種寬波段時間分辨熒光免疫分析裝置及分析方法
下一篇：一種分類別測量交通量的統(tǒng)計系統(tǒng)及工作方法

同類專利

專利分類

G 物理

G06 計算；推算；計數(shù)

免登錄下載普通用戶下載升級VIP會員，免費下載

專利文獻下載

說明：

1、專利原文基于中國國家知識產權局專利說明書；

2、支持發(fā)明專利、實用新型專利、外觀設計專利（升級中）；

3、專利數(shù)據(jù)每周兩次同步更新，支持Adobe PDF格式；

4、內容包括專利技術的結構示意圖、流程工藝圖或技術構造圖；

5、已全新升級為極速版,下載速度顯著提升！歡迎使用！

請您登陸后，進行下載，點擊【登陸】【注冊】