[發明專利]紙質票據圖片的數據合成與文本識別方法在審

申請號：	202010145278.3	申請日：	2020-03-05
公開（公告）號：	CN111414906A	公開（公告）日：	2020-07-14
發明（設計）人：	李清勇;蔡斯琪;趙鵬;薛文元	申請（專利權）人：	北京交通大學
主分類號：	G06K9/32	分類號：	G06K9/32;G06K9/34;G06K9/62;G06N3/04;G06N3/08
代理公司：	北京市商泰律師事務所 11255	代理人：	黃曉軍
地址：	100044 北***	國省代碼：	北京;11
權利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關鍵詞：	紙質票據圖片數據合成文本識別方法
鉆瓜網技術展會專利詞庫專利權人專利榜在售專利公布日期熱門專利

【權利要求書】：

1.一種紙質票據圖片的數據合成與文本識別方法，其特征在于，包括：

去除紙質票據圖片中的前景文字，獲得所述紙質票據圖片的背景圖片，并記錄所述紙質票據圖片中的文字區域的坐標信息；

利用預先收集的詞庫生成要合成的紙質票據中的字段對應的白底文本圖片；

根據各個字段在紙質票據中對應的位置和所述紙質票據圖片中的文字區域的坐標信息，將各個字段的白底文本圖片覆蓋在所述背景圖片上，得到合成的紙質票據圖片；

將一定數量的合成的紙質票據圖片數據作為訓練集，利用所述訓練集采用權重CTC-Loss損失函數對CRNN模型進行訓練，利用訓練好的CRNN模型對待識別的紙質票據進行文本識別。

2.根據權利要求1所述的方法，其特征在于，所述的去除紙質票據圖片中的前景文字，獲得所述紙質票據圖片的背景圖片，并記錄所述紙質票據圖片中的文字區域的坐標信息，包括：

去除紙質票據圖片的前景文字，獲得該紙質票據圖片的背景圖片，在所述背景圖片上框選需要去除的文字區域，并記錄每個文字區域的坐標，在所述背景圖片中的各個前景文字的像素點處取RGB顏色值，得到各個前景文字的RGB顏色值范圍；

遍歷所述背景圖片上的每個像素點，如果該像素點的RGB值屬于某個前景文字的像素點的RGB顏色值范圍，則隨機從該某個前景文字的像素點上下左右四個方向之一找一個鄰近點，如果該鄰近點的RGB值不屬于該某個前景文字的像素點的RGB顏色值范圍，把該鄰近點的RGB值覆蓋該某個前景文字的像素點的RGB值；如果該鄰近點的RGB值屬于該某個前景文字的像素點的RGB顏色值范圍，則繼續隨機找下一個鄰近點，重復上面的操作，直到所述背景圖片上的所有前景文字的像素點的RGB值都被鄰近點的RGB值覆蓋，得到無文字的背景圖片。

3.根據權利要求2所述的方法，其特征在于，所述的利用預先收集的詞庫生成要合成的紙質票據中的字段對應的白底文本圖片，包括：

確定要合成的紙質票據中的字段，從預先收集的詞庫中為每個字段準備相應的詞表，依次從每個字段的詞表中選取一個字符串，根據該字段在紙質票據中的字體、字號和顏色，設置Pygame的對應參數，根據每個字段在紙質票據中的字體、字號和顏色，以及該字段對應的字符串利用Pygame生成該字段的白底的序列文本圖片。

4.根據權利要求3所述的方法，其特征在于，所述的根據各個字段在紙質票據中對應的位置和所述紙質票據圖片中的文字區域的坐標信息，將各個字段的白底文本圖片覆蓋在所述背景圖片上，得到合成的紙質票據圖片，包括：

根據各個字段在紙質票據中的文字區域中的對應位置和所述文字區域的坐標信息，把各個字段對應的白底文本圖片覆蓋在紙質票據的背景圖片上的對應位置上，遍歷覆蓋操作后生成的圖片中的每個文字區域中的每一個像素點，如果該像素點屬于文本圖片的白底部分，該像素點不覆蓋，如果該像素點屬于字體部分，則覆蓋背景圖片上的像素值，得到合成的紙質票據圖片；

重復執行上述處理過程，合成一定數量的紙質票據圖片。

5.根據權利要求1至4任一項所述的方法，其特征在于，所述的將一定數量的合成的紙質票據圖片數據作為訓練集，利用所述訓練集采用權重CTC-Loss損失函數對CRNN模型進行訓練，包括：

將一定數量的合成的紙質票據圖片數據作為訓練集S＝{(x¹，z¹)，(x²，z²)，...}，利用上述訓練集采用權重的CTC-Loss損失函數對CRNN模型進行訓練；

對于訓練集S＝{(x¹，z¹)，(x²，z²)，...}，(x，z)是樣本，x＝(x₁，x₂，...，x_T)表示一個長度為T的向量，z是真實值標簽，字符集L表示CRNN模型能識別的字符，預測標簽序列表示為π＝(π₁，π₂，...，π_T)，π_i∈L∩{blank}，{blank}表示空字符，B是一種映射變換，B(π)＝z，把π映射為z，π與z為多對一的映射關系；

假設給定輸入序列和模型參數，RNN每一時刻的輸出之間是條件獨立的，設置帶權重的CTC-Loss損失函數，通過權重增加對序列中指定位置的關注度，帶權重的CTC-Loss損失函數如下：

其中y是經過softmax層得到字符集的后驗概率，表示t時刻輸出π_t的概率，j是記錄當前屬于第幾個字符，當π_t-1∈L且π_t＝{blank}時，j＝j+1，L_z表示真值z的序列長度，l是一個范圍參數，通過l指定序列中需特別關注的字符位置，α是權重值。

下載完整專利技術內容需要扣除積分，VIP會員可以免費下載。

免登錄下載普通用戶下載升級VIP會員，免費下載

該專利技術資料僅供研究查看技術是否侵權等信息，商用須獲得專利權人授權。該專利全部權利屬于北京交通大學，未經北京交通大學許可，擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作，請聯系【客服】

本文鏈接：http://www.szxzyx.cn/pat/books/202010145278.3/1.html，轉載請聲明來源鉆瓜專利網。