[發(fā)明專利]文本區(qū)域的確定方法、裝置、設備及可讀存儲介質有效
| 申請?zhí)枺?/td> | 202110274178.5 | 申請日: | 2021-03-15 |
| 公開(公告)號: | CN113076814B | 公開(公告)日: | 2022-02-25 |
| 發(fā)明(設計)人: | 石世昌;黃飛 | 申請(專利權)人: | 騰訊科技(深圳)有限公司 |
| 主分類號: | G06V30/412 | 分類號: | G06V30/412;G06V30/14;G06V30/146;G06V30/18;G06V30/19;G06K9/62 |
| 代理公司: | 北京三高永信知識產權代理有限責任公司 11138 | 代理人: | 祝亞男 |
| 地址: | 518057 廣東省深圳*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 文本 區(qū)域 確定 方法 裝置 設備 可讀 存儲 介質 | ||
本申請公開了一種文本區(qū)域的確定方法、裝置、設備及可讀存儲介質,涉及機器學習領域。該方法包括:獲取目標圖像;對目標圖像進行文本識別,得到區(qū)域中心預測結果和區(qū)域邊緣預測結果;對區(qū)域中心預測結果和區(qū)域邊緣預測結果進行邏輯結合,得到目標圖像中的文本連通區(qū)域;基于文本連通區(qū)域確定文本內容在目標圖像中的文本區(qū)域。在對圖像進行文本識別時,同時識別得到用于表示文本區(qū)域的中心預測結果和用于表示邊緣的邊緣預測結果,從而通過對中心預測結果和邊緣預測結果的邏輯結合對文本區(qū)域的預測進行修正,并最終得到文本區(qū)域,在兩層檢測結果的優(yōu)化下,文本區(qū)域的檢測準確率較高,從而后續(xù)基于文本區(qū)域進行文本內容處理的效率和準確率也較高。
技術領域
本申請實施例涉及機器學習領域,特別涉及一種文本區(qū)域的確定方法、裝置、設備及可讀存儲介質。
背景技術
光學字符識別(Optical Character Recognition,OCR)是一種對圖像中的字符進行識別的功能。通常,用戶將帶有字符的圖像輸入到光學字符識別模塊,并得到輸出結果。該輸出結果中包括識別得到的圖像中的字符。OCR技術可以應用于圖像轉檔中,而在圖像轉檔場景下,在OCR識別之前首先需要對圖像中的存在文本的區(qū)域進行檢測。
相關技術中,在文本區(qū)域的檢測過程中,通常采用神經網絡模型直接預測文本區(qū)域的信息,如:基于分割的文本行檢測方法(pixel-link)是通過預測每個像素是否屬于文本區(qū)域,然后根據(jù)像素之間的關系對文本區(qū)域進行合并后,檢測得到文本區(qū)域的。
然而,上述方式中,基于分割的文字檢測方案檢測準確率較低,容易出現(xiàn)虛警的問題,故檢測得到結果后的后續(xù)處理過程較為復雜,導致文本區(qū)域的檢測準確率低,從而文本內容處理的效率低。
發(fā)明內容
本申請實施例提供了一種文本區(qū)域的確定方法、裝置、設備及可讀存儲介質,能夠提高文本區(qū)域的檢測準確率以及效率。所述技術方案如下:
一方面,提供了一種文本區(qū)域的確定方法,所述方法包括:
獲取目標圖像,所述目標圖像中包括文本內容,所述目標圖像為所述文本內容所在的文本區(qū)域待確定的圖像;
對所述目標圖像進行文本識別,得到區(qū)域中心預測結果和區(qū)域邊緣預測結果,所述區(qū)域中心預測結果表示預測得到的所述文本區(qū)域所處的區(qū)域范圍,所述區(qū)域邊緣預測結果表示預測得到的所述文本區(qū)域的邊緣位置;
對所述區(qū)域中心預測結果和所述區(qū)域邊緣預測結果進行邏輯結合,得到所述目標圖像中的文本連通區(qū)域,所述文本連通區(qū)域表示具有連通關系的所述文本內容在所述目標圖像中的區(qū)域;
基于所述文本連通區(qū)域確定所述文本內容在所述目標圖像中的所述文本區(qū)域。
另一方面,提供了一種文本區(qū)域的確定裝置,所述裝置包括:
獲取模塊,用于獲取目標圖像,所述目標圖像中包括文本內容,所述目標圖像為所述文本內容所在的文本區(qū)域待確定的圖像;
識別模塊,用于對所述目標圖像進行文本識別,得到區(qū)域中心預測結果和區(qū)域邊緣預測結果,所述區(qū)域中心預測結果表示預測得到的所述文本區(qū)域所處的區(qū)域范圍,所述區(qū)域邊緣預測結果表示預測得到的所述文本區(qū)域的邊緣位置;
處理模塊,用于對所述區(qū)域中心預測結果和所述區(qū)域邊緣預測結果進行邏輯結合,得到所述目標圖像中的文本連通區(qū)域,所述文本連通區(qū)域表示具有連通關系的所述文本內容在所述目標圖像中的區(qū)域;
確定模塊,用于基于所述文本連通區(qū)域確定所述文本內容在所述目標圖像中的所述文本區(qū)域。
在一個可選的實施例中,所述處理模塊,包括:
生成單元,用于基于所述區(qū)域中心預測結果生成區(qū)域二值圖;
所述生成單元,還用于基于所述區(qū)域邊緣預測結果生成邊緣二值圖;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于騰訊科技(深圳)有限公司,未經騰訊科技(深圳)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業(yè)授權和技術合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110274178.5/2.html,轉載請聲明來源鉆瓜專利網。





