[發明專利]紙質票據圖片的數據合成與文本識別方法在審
| 申請號: | 202010145278.3 | 申請日: | 2020-03-05 |
| 公開(公告)號: | CN111414906A | 公開(公告)日: | 2020-07-14 |
| 發明(設計)人: | 李清勇;蔡斯琪;趙鵬;薛文元 | 申請(專利權)人: | 北京交通大學 |
| 主分類號: | G06K9/32 | 分類號: | G06K9/32;G06K9/34;G06K9/62;G06N3/04;G06N3/08 |
| 代理公司: | 北京市商泰律師事務所 11255 | 代理人: | 黃曉軍 |
| 地址: | 100044 北*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 紙質 票據 圖片 數據 合成 文本 識別 方法 | ||
本發明提供了一種紙質票據圖片的數據合成與文本識別方法。該方法包括:去除紙質票據圖片中的前景文字,獲得紙質票據圖片的背景圖片,并記錄紙質票據圖片中的文字區域的坐標信息;利用預先收集的詞庫生成要合成的紙質票據中的字段對應的白底文本圖片;根據字段在紙質票據中對應的位置和紙質票據圖片中的文字區域的坐標信息,將字段的白底文本圖片覆蓋在所述背景圖片上,得到合成的紙質票據圖片;將一定數量的合成的紙質票據圖片數據作為訓練集,利用訓練集采用權重CTC?Loss損失函數對CRNN模型進行訓練,利用訓練好的CRNN模型對待識別的紙質票據進行文本識別。本發明可以有效地識別出火車票等紙質票據圖片中的文本,提高模型對指定位置字符的識別精度。
技術領域
本發明涉及圖像文字識別技術領域,尤其涉及一種紙質票據圖片的數據合成與文本識別方法。
背景技術
在一般的文本圖像識別任務中,例如財務票據識別、醫院化驗單文本識別、屏幕手寫文字識別中,識別目標通常是一行行長短不一的序列文本。針對這樣的序列文本識別任務,傳統方法需要將文本進行獨立字符分割,進一步對分割后的單個文字進行逐一識別,對文字分割再識別增加了任務復雜度,也使得識別過程變得麻煩。不同于先將文字分割,再逐個識別單個文字的傳統方法,序列文字識別將一次識別整個序列的文字。
國外對序列文本識別技術的研究工作起步較早,且英文字符有著總量小、單個字符筆畫連通等鮮明特征,這些特征都易于從圖像中提取。中文字符識別則是比較有挑戰性的一項內容,其中一個主要難度就在于漢字的特征提取。漢字是由象形文字發展而來的,字符數量多、字體類型多、結構復雜,且擁有一定數量的形近字,這些特點都增加了提取漢字有效特征的難度,從而影響到識別結果。同時,不同的序列文本有著不同長度的標簽,針對非固定長度標簽序列預測,這是序列文本識別任務的一個問題。
使用深度學習實現序列文字識別,這是一個普遍采用的有效但又計算量大的方法。常用的深度學習模型是CRNN(ConvolutionalRecurrentNeuralNetwork,端到端不定長文字識別CRNN算法詳解)模型,該模型首先使用卷積神經網絡提取輸入圖像的特征序列;然后,使用循環神經網絡對卷積神經網絡輸出的特征序列的每一幀進行預測,最后,通過CTC(Connectionist Temporal Classifier,時間連接分類器)將循環神經網絡的預測結果解碼為標簽序列。
CRNN模型訓練時的損失函數是CTC-Loss。但是,當序列文本很長,序列前段是英文數字字符,序列后幾位是漢字時,往往序列前段的英文數字字符能識別正確,后幾位的漢字卻總是識別出錯。這是由于CTC-Loss計算過程導致的。CTC有個假設前提,不同時刻網絡的輸出概率是條件獨立的。除了方法的問題,還有訓練數據的問題。紙質火車票圖片包含乘客個人信息,沒有大量圖片數據用于訓練,同時標注數據也是一件費時費力的事情。但是,數據恰恰是深度學習中重要的部分。
發明內容
本發明的實施例提供了一種紙質票據圖片的數據合成與文本識別方法,以克服現有技術的缺點。
為了實現上述目的,本發明采取了如下技術方案。
一種紙質票據圖片的數據合成與文本識別方法,包括:
去除紙質票據圖片中的前景文字,獲得所述紙質票據圖片的背景圖片,并記錄所述紙質票據圖片中的文字區域的坐標信息;
利用預先收集的詞庫生成要合成的紙質票據中的字段對應的白底文本圖片;
根據各個字段在紙質票據中對應的位置和所述紙質票據圖片中的文字區域的坐標信息,將各個字段的白底文本圖片覆蓋在所述背景圖片上,得到合成的紙質票據圖片;
將一定數量的合成的紙質票據圖片數據作為訓練集,利用所述訓練集采用權重CTC-Loss損失函數對CRNN模型進行訓練,利用訓練好的CRNN模型對待識別的紙質票據進行文本識別。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京交通大學,未經北京交通大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010145278.3/2.html,轉載請聲明來源鉆瓜專利網。
- 數據顯示系統、數據中繼設備、數據中繼方法、數據系統、接收設備和數據讀取方法
- 數據記錄方法、數據記錄裝置、數據記錄媒體、數據重播方法和數據重播裝置
- 數據發送方法、數據發送系統、數據發送裝置以及數據結構
- 數據顯示系統、數據中繼設備、數據中繼方法及數據系統
- 數據嵌入裝置、數據嵌入方法、數據提取裝置及數據提取方法
- 數據管理裝置、數據編輯裝置、數據閱覽裝置、數據管理方法、數據編輯方法以及數據閱覽方法
- 數據發送和數據接收設備、數據發送和數據接收方法
- 數據發送裝置、數據接收裝置、數據收發系統、數據發送方法、數據接收方法和數據收發方法
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置





