[發(fā)明專利]文本識別方法、裝置、設備和存儲介質有效
| 申請?zhí)枺?/td> | 202010438073.4 | 申請日: | 2020-05-21 |
| 公開(公告)號: | CN111612009B | 公開(公告)日: | 2021-10-22 |
| 發(fā)明(設計)人: | 包志敏 | 申請(專利權)人: | 騰訊科技(深圳)有限公司 |
| 主分類號: | G06K9/34 | 分類號: | G06K9/34;G06K9/20;G06K9/62 |
| 代理公司: | 廣州三環(huán)專利商標代理有限公司 44202 | 代理人: | 熊永強;賈允 |
| 地址: | 518057 廣東省深圳*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 文本 識別 方法 裝置 設備 存儲 介質 | ||
1.一種文本識別方法,其特征在于,包括:
對待識別圖像中的預設對象圖像進行分割處理,獲取目標分割圖像,所述目標分割圖像包括不規(guī)則文本區(qū)域和對應的外接矩形;
從所述預設對象圖像中,提取出與所述目標分割圖像對應的目標對象圖像,所述目標對象圖像包括與所述不規(guī)則文本區(qū)域對應的不規(guī)則對象文本區(qū)域;
根據(jù)所述不規(guī)則文本區(qū)域的輪廓點的點集和所述外接矩形,在所述不規(guī)則對象文本區(qū)域中獲取預設數(shù)量的上邊界控制點集和下邊界控制點集;
分別確定所述上邊界控制點集的第一垂直坐標均值以及所述下邊界控制點集的第二垂直坐標均值;
根據(jù)所述第一垂直坐標均值和所述外接矩形的水平長度,確定第一水平直線段;
根據(jù)所述第二垂直坐標均值和所述外接矩形的水平長度,確定第二水平直線段;
分別從所述第一水平直線段和所述第二水平直線段上提取所述預設數(shù)量的第一矯正點集和第二矯正點集;
根據(jù)所述上邊界控制點集、所述下邊界控制點集、所述第一矯正點集和所述第二矯正點集,對所述目標對象圖像進行薄板樣條插值變換,得到所述目標對象圖像對應的矯正對象圖像;
根據(jù)所述矯正對象圖像,獲取水平對象文本圖像;
將所述水平對象文本圖像輸入文本識別模型進行文本識別處理,獲取文本識別結果。
2.根據(jù)權利要求1所述的方法,其特征在于,所述對待識別圖像中的預設對象圖像進行分割處理,獲取目標分割圖像,包括:
將所述待識別圖像輸入預設對象檢測模型進行預設對象檢測處理,提取出包括不規(guī)則文本的所述預設對象圖像;
將所述預設對象圖像輸入漸進式擴展網(wǎng)絡進行分割處理,獲取包括所述不規(guī)則文本區(qū)域的所述目標分割圖像。
3.根據(jù)權利要求1或2所述的方法,其特征在于,所述根據(jù)所述不規(guī)則文本區(qū)域的輪廓點的點集和所述外接矩形,在所述不規(guī)則對象文本區(qū)域中獲取預設數(shù)量的上邊界控制點集和下邊界控制點集,包括:
根據(jù)所述不規(guī)則文本區(qū)域的輪廓點的點集和所述外接矩形,確定所述不規(guī)則文本區(qū)域的端點;
根據(jù)所述端點和所述輪廓點的點集,獲取所述不規(guī)則對象文本區(qū)域的上邊界點集和下邊界點集;
分別從所述上邊界點集和所述下邊界點集中提取所述預設數(shù)量的所述上邊界控制點集和所述下邊界控制點集。
4.根據(jù)權利要求2所述的方法,其特征在于,所述將所述預設對象圖像輸入漸進式擴展網(wǎng)絡進行分割處理,獲取包括不規(guī)則文本區(qū)域的所述目標分割圖像,包括:
將所述預設對象圖像輸入所述漸進式擴展網(wǎng)絡進行分割處理,得到文本區(qū)域分割圖像;所述文本區(qū)域分割圖像中包括至少一個文本區(qū)域;
獲取每個文本區(qū)域對應的分割圖像;其中,每個文本區(qū)域對應的分割圖像包括一個文本區(qū)域和對應的外接矩形;
確定每個分割圖像中文本區(qū)域面積與對應的外接矩形面積的比值;
獲取所述比值低于閾值的分割圖像為所述包括不規(guī)則文本區(qū)域的目標分割圖像。
5.根據(jù)權利要求2所述的方法,其特征在于,還包括:
構造目標對象樣本圖像以及對應的對象文本;
將所述構造的目標對象樣本圖像以及對應的對象文本作為目標對象圖像的訓練樣本集;
基于所述目標對象圖像的訓練樣本集進行機器學習,得到對象文本矯正識別模型;
在所述從所述預設對象圖像中,提取出與所述目標分割圖像對應的目標對象圖像之后,還包括:
將所述目標對象圖像輸入所述對象文本矯正識別模型進行文本的矯正和識別處理,獲取所述文本識別結果。
6.根據(jù)權利要求2所述的方法,其特征在于,還包括:
構造對象樣本圖像以及對應的文本區(qū)域樣本分割圖像;
將對象樣本圖像以及對應的文本區(qū)域樣本分割圖像作為仿真樣本數(shù)據(jù)集,
基于所述仿真樣本數(shù)據(jù)集進行機器學習,得到所述漸進式擴展網(wǎng)絡。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于騰訊科技(深圳)有限公司,未經(jīng)騰訊科技(深圳)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業(yè)授權和技術合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010438073.4/1.html,轉載請聲明來源鉆瓜專利網(wǎng)。





