[發明專利]大票據圖片文字識別方法有效
| 申請號: | 201711403971.0 | 申請日: | 2017-12-22 |
| 公開(公告)號: | CN109977723B | 公開(公告)日: | 2021-10-22 |
| 發明(設計)人: | 詹智財;羅陽;周鵬程;代穩 | 申請(專利權)人: | 蘇寧云商集團股份有限公司 |
| 主分類號: | G06K9/00 | 分類號: | G06K9/00;G06K9/34;G06Q40/00 |
| 代理公司: | 北京市萬慧達律師事務所 11111 | 代理人: | 黃玉東 |
| 地址: | 210042 江蘇省*** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 票據 圖片 文字 識別 方法 | ||
1.一種大票據圖片文字識別方法,其特征在于,所述方法包括:
步驟S1、將紙質票據轉化為圖片格式;
步驟S2、對形成為圖片格式的票據進行圖像預處理;
步驟S3、對預處理后的票據圖片進行區域分割,得到該票據圖片的多個圖片塊,所述的分割包括:
將預處理后的票據圖片設定分割順序,且以重疊區域為N個像素,窗口大小為C×C進行區域分割,得到多個圖片塊;
步驟S4、對票據圖片的多個圖片塊進行文本行區域的目標檢測;
步驟S5、對多個圖片塊中獲取的各文本行區域進行融合,得到完整的文本行區域,所述的融合包括:
按照每個圖片塊原本位于紙質票據圖片中的相對位置,對每個圖片塊按照之前設定分割順序的逆順序進行處理;所述處理包括:
基于當前圖片塊,以及當前圖片塊鄰近三個方位區域的共四個圖片塊,進行過濾,過濾掉完全包含的子區域;
基于當前圖片塊與鄰近任一圖片塊中N個像素的區域存在相交的重疊區域,將當前圖片塊的文本區域融入到另一個區域,刪除當前圖片塊的該重疊區域;
經過上述刪除、過濾之后,收集所有圖片塊中的文本區域作為原始票據圖片中的完整文本行區域;
步驟S6、獲取票據圖片中完整的文本行區域,進行圖片文字轉計算機文字;
步驟S7、基于不同紙質票據的需求,給出特定區域的計算機文字結果。
2.根據權利要求1所述的方法,其特征在于,在步驟S2中,所述預處理包括:
對票據圖片進行去噪處理;
其中,針對非表格式的票據圖片,直接進入步驟S3進行圖片分割;
針對表格式的票據圖片,則進行圖片角度修正的步驟。
3.根據權利要求2所述的方法,其特征在于,所述圖片角度修正的步驟包括:
采用傅里葉變換,將圖片的空間域信息轉換到頻域上;
通過Hough線檢測,得到旋轉角度;
進行角度逆旋轉,恢復為原圖片角度。
4.根據權利要求3所述的方法,其特征在于,在步驟S3中,設定每個圖片塊的區域為:bi,j=I[i*(C-N):i*(C-N)+C,j*(C-N):j*(C-N)+C,:],其中,I表示圖片,i表示行,j表示列,H表示高度,W表示寬度,且
5.根據權利要求4所述的方法,其特征在于,在所述步驟S4中,對區域分割后的圖片塊進行文本行區域的目標檢測,包括:
以行為單位,對票據圖片進行人工區域標注;
將標注好的圖片組成訓練集,通過目標檢測模型進行訓練,直至收斂;
將分割后的圖片塊放入訓練好的目標檢測模型進行文本行區域的目標檢測,獲取每個圖片塊中文本行區域的坐標并輸出。
6.根據權利要求5所述的方法,其特征在于,在所述步驟S6中,所述的圖片文字轉計算機文字,包括:
基于完整的文本行區域的坐標,獲取票據圖片中每個完整的文本行區域;
采用深度學習中基于注意力機制的圖片轉文字模型,對獲取的文字區域轉計算機文字。
7.根據權利要求6所述的方法,其特征在于,所述基于注意力機制的圖片轉文字模型由如下步驟所得:
基于票據文本行內容,人工標注票據圖片的區域坐標,并將其組成訓練集;
對基于深度學習的注意力機制的CNN與LSTM組成的混合模型進行訓練,直至收斂;
將分割后的圖片塊的文本行區域放入訓練完成的混合模型進行文本行識別。
8.根據權利要求3所述的方法,其特征在于,在恢復為原圖片角度之后,還包括對圖片畫質進行增強處理的步驟。
9.如權利要求5所述的方法,其特征在于,所述目標檢測模型為SSD模型。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于蘇寧云商集團股份有限公司,未經蘇寧云商集團股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201711403971.0/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種可轉動的電子支付裝置
- 下一篇:一種水下目標分類方法





