[發明專利]文本識別方法、裝置、設備和存儲介質有效
| 申請號: | 202010438073.4 | 申請日: | 2020-05-21 |
| 公開(公告)號: | CN111612009B | 公開(公告)日: | 2021-10-22 |
| 發明(設計)人: | 包志敏 | 申請(專利權)人: | 騰訊科技(深圳)有限公司 |
| 主分類號: | G06K9/34 | 分類號: | G06K9/34;G06K9/20;G06K9/62 |
| 代理公司: | 廣州三環專利商標代理有限公司 44202 | 代理人: | 熊永強;賈允 |
| 地址: | 518057 廣東省深圳*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 文本 識別 方法 裝置 設備 存儲 介質 | ||
本公開涉及一種文本識別方法、裝置、設備和存儲介質。該方法包括將獲取的預設對象圖像輸入漸進式擴展網絡進行分割以獲取包括不規則文本區域的目標分割圖像;利用薄板樣條插值算法對目標對象圖像進行矯正,利用文本識別模型識別矯正后的水平對象文本圖像。可以實現對預設對象圖像的像素級分割以有效檢測各種形狀的文本區域,并且通過將不規則文本區域進行矯正得到水平文本區域以用于識別,可以避免直接對不規則文本識別導致的文本失序問題、以及對不規則文本的大量標注工作,可以用水平文本圖像進行訓練的文本識別模型泛化能力也更強。另外,具體通過TPS算法實現矯正,可以適用更復雜的應用場景,魯棒性更好。
技術領域
本公開涉及人工智能技術領域,尤其涉及一種文本識別方法、裝置、設備和存儲介質。
背景技術
目前OCR(Optical Character Recognition,光學字符識別)技術應用廣泛,OCR技術在文本檢測時,檢測出的文本區域一般為矩形框、旋轉矩形框或四點矩形框,如圖1所示,這種檢測方式,針對不規則文本(例如彎曲文本),檢測出的文本區域會包括大量背景區域,對文本的識別會造成很大干擾。并且現有的文本識別方法,例如卷積遞歸神經網絡CRNN(Convolutional Recurrent Neural Network)識別方法,僅對矩形文本圖像識別效果較好,對于包括大量背景的文本圖像則無法識別。
另外,現有的對于不規則文本的識別方法包括注意力模型(Attention model)和極坐標矯正方法,其中,注意力模型可以識別2D結構信息的文本(如公式),可以應用于不規則文本的識別,但需要的訓練數據量較大,且較難通過模擬數據來構造,同時,會引入文本字符順序混亂的問題。極坐標矯正方法是將弧形文本恢復成直線形文本再進行文本識別,該方法對于光照,畸變以及復雜場景缺乏魯棒性。
現在很多線上業務的云端操作中,會對圖像中的某類對象的文本進行識別和鑒定,比如對公文、票據和證照等圖像中的印章的文本進行識別和鑒定,而印章中一般會包括不規則文本(比如彎曲文本、T形文本等),由上述分析可知,現有的文本識別技術均不能有效的識別印章中的不規則文本。
發明內容
有鑒于上述存在的技術問題,本公開提出了一種文本識別方法、裝置、設備和存儲介質。可以有效識別文本。
根據本公開的一方面,提供了一種文本識別方法,該方法包括:
獲取待識別圖像中包括不規則文本的預設對象圖像;
將所述預設對象圖像輸入漸進式擴展網絡進行分割處理,獲取包括不規則文本區域的目標分割圖像;
從所述預設對象圖像中,提取出與所述目標分割圖像對應的目標對象圖像;
利用所述目標分割圖像和薄板樣條插值算法,對所述目標對象圖像進行矯正,得到水平對象文本圖像;
將所述水平對象文本圖像輸入文本識別模型進行文本識別處理,獲取文本識別結果。
根據本公開的另一方面,提供了一種文本識別裝置,該裝置包括:
預設對象圖像獲取模塊,用于獲取待識別圖像中包括不規則文本的預設對象圖像;
目標分割圖像獲取模塊,用于將所述預設對象圖像輸入漸進式擴展網絡進行分割處理,獲取包括不規則文本區域的目標分割圖像;
目標對象圖像提取模塊,用于從所述預設對象圖像中,提取出與所述目標分割圖像對應的目標對象圖像;
水平對象文本圖像獲取模塊,用于利用所述目標分割圖像和薄板樣條插值算法,對所述目標對象圖像進行矯正,得到水平對象文本圖像;
文本識別結果獲取模塊,用于將所述水平對象文本圖像輸入文本識別模型進行文本識別處理,獲取文本識別結果。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于騰訊科技(深圳)有限公司,未經騰訊科技(深圳)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010438073.4/2.html,轉載請聲明來源鉆瓜專利網。





