[發明專利]紙質票據圖片的數據合成與文本識別方法在審
| 申請號: | 202010145278.3 | 申請日: | 2020-03-05 |
| 公開(公告)號: | CN111414906A | 公開(公告)日: | 2020-07-14 |
| 發明(設計)人: | 李清勇;蔡斯琪;趙鵬;薛文元 | 申請(專利權)人: | 北京交通大學 |
| 主分類號: | G06K9/32 | 分類號: | G06K9/32;G06K9/34;G06K9/62;G06N3/04;G06N3/08 |
| 代理公司: | 北京市商泰律師事務所 11255 | 代理人: | 黃曉軍 |
| 地址: | 100044 北*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 紙質 票據 圖片 數據 合成 文本 識別 方法 | ||
1.一種紙質票據圖片的數據合成與文本識別方法,其特征在于,包括:
去除紙質票據圖片中的前景文字,獲得所述紙質票據圖片的背景圖片,并記錄所述紙質票據圖片中的文字區域的坐標信息;
利用預先收集的詞庫生成要合成的紙質票據中的字段對應的白底文本圖片;
根據各個字段在紙質票據中對應的位置和所述紙質票據圖片中的文字區域的坐標信息,將各個字段的白底文本圖片覆蓋在所述背景圖片上,得到合成的紙質票據圖片;
將一定數量的合成的紙質票據圖片數據作為訓練集,利用所述訓練集采用權重CTC-Loss損失函數對CRNN模型進行訓練,利用訓練好的CRNN模型對待識別的紙質票據進行文本識別。
2.根據權利要求1所述的方法,其特征在于,所述的去除紙質票據圖片中的前景文字,獲得所述紙質票據圖片的背景圖片,并記錄所述紙質票據圖片中的文字區域的坐標信息,包括:
去除紙質票據圖片的前景文字,獲得該紙質票據圖片的背景圖片,在所述背景圖片上框選需要去除的文字區域,并記錄每個文字區域的坐標,在所述背景圖片中的各個前景文字的像素點處取RGB顏色值,得到各個前景文字的RGB顏色值范圍;
遍歷所述背景圖片上的每個像素點,如果該像素點的RGB值屬于某個前景文字的像素點的RGB顏色值范圍,則隨機從該某個前景文字的像素點上下左右四個方向之一找一個鄰近點,如果該鄰近點的RGB值不屬于該某個前景文字的像素點的RGB顏色值范圍,把該鄰近點的RGB值覆蓋該某個前景文字的像素點的RGB值;如果該鄰近點的RGB值屬于該某個前景文字的像素點的RGB顏色值范圍,則繼續隨機找下一個鄰近點,重復上面的操作,直到所述背景圖片上的所有前景文字的像素點的RGB值都被鄰近點的RGB值覆蓋,得到無文字的背景圖片。
3.根據權利要求2所述的方法,其特征在于,所述的利用預先收集的詞庫生成要合成的紙質票據中的字段對應的白底文本圖片,包括:
確定要合成的紙質票據中的字段,從預先收集的詞庫中為每個字段準備相應的詞表,依次從每個字段的詞表中選取一個字符串,根據該字段在紙質票據中的字體、字號和顏色,設置Pygame的對應參數,根據每個字段在紙質票據中的字體、字號和顏色,以及該字段對應的字符串利用Pygame生成該字段的白底的序列文本圖片。
4.根據權利要求3所述的方法,其特征在于,所述的根據各個字段在紙質票據中對應的位置和所述紙質票據圖片中的文字區域的坐標信息,將各個字段的白底文本圖片覆蓋在所述背景圖片上,得到合成的紙質票據圖片,包括:
根據各個字段在紙質票據中的文字區域中的對應位置和所述文字區域的坐標信息,把各個字段對應的白底文本圖片覆蓋在紙質票據的背景圖片上的對應位置上,遍歷覆蓋操作后生成的圖片中的每個文字區域中的每一個像素點,如果該像素點屬于文本圖片的白底部分,該像素點不覆蓋,如果該像素點屬于字體部分,則覆蓋背景圖片上的像素值,得到合成的紙質票據圖片;
重復執行上述處理過程,合成一定數量的紙質票據圖片。
5.根據權利要求1至4任一項所述的方法,其特征在于,所述的將一定數量的合成的紙質票據圖片數據作為訓練集,利用所述訓練集采用權重CTC-Loss損失函數對CRNN模型進行訓練,包括:
將一定數量的合成的紙質票據圖片數據作為訓練集S={(x1,z1),(x2,z2),...},利用上述訓練集采用權重的CTC-Loss損失函數對CRNN模型進行訓練;
對于訓練集S={(x1,z1),(x2,z2),...},(x,z)是樣本,x=(x1,x2,...,xT)表示一個長度為T的向量,z是真實值標簽,字符集L表示CRNN模型能識別的字符,預測標簽序列表示為π=(π1,π2,...,πT),πi∈L∩{blank},{blank}表示空字符,B是一種映射變換,B(π)=z,把π映射為z,π與z為多對一的映射關系;
假設給定輸入序列和模型參數,RNN每一時刻的輸出之間是條件獨立的,設置帶權重的CTC-Loss損失函數,通過權重增加對序列中指定位置的關注度,帶權重的CTC-Loss損失函數如下:
其中y是經過softmax層得到字符集的后驗概率,表示t時刻輸出πt的概率,j是記錄當前屬于第幾個字符,當πt-1∈L且πt={blank}時,j=j+1,Lz表示真值z的序列長度,l是一個范圍參數,通過l指定序列中需特別關注的字符位置,α是權重值。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京交通大學,未經北京交通大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010145278.3/1.html,轉載請聲明來源鉆瓜專利網。
- 數據顯示系統、數據中繼設備、數據中繼方法、數據系統、接收設備和數據讀取方法
- 數據記錄方法、數據記錄裝置、數據記錄媒體、數據重播方法和數據重播裝置
- 數據發送方法、數據發送系統、數據發送裝置以及數據結構
- 數據顯示系統、數據中繼設備、數據中繼方法及數據系統
- 數據嵌入裝置、數據嵌入方法、數據提取裝置及數據提取方法
- 數據管理裝置、數據編輯裝置、數據閱覽裝置、數據管理方法、數據編輯方法以及數據閱覽方法
- 數據發送和數據接收設備、數據發送和數據接收方法
- 數據發送裝置、數據接收裝置、數據收發系統、數據發送方法、數據接收方法和數據收發方法
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置





