[發明專利]一種基于樣本增強的手寫樣本識別方法與系統有效
| 申請號: | 201811623758.5 | 申請日: | 2018-12-28 |
| 公開(公告)號: | CN109858488B | 公開(公告)日: | 2021-09-17 |
| 發明(設計)人: | 謝暢;錢浩然;徐寶函;周元笙;梅鵾 | 申請(專利權)人: | 眾安信息技術服務有限公司 |
| 主分類號: | G06K9/34 | 分類號: | G06K9/34;G06K9/62;G06N3/04 |
| 代理公司: | 北京市萬慧達律師事務所 11111 | 代理人: | 顧友 |
| 地址: | 518000 廣東省深圳市前海深港合作區前*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 樣本 增強 手寫 識別 方法 系統 | ||
1.一種基于樣本增強的手寫樣本識別方法,其特征在于,包括如下步驟:
S1、生成標注樣本,標出圖像樣本中的手寫字符,將所述手寫字符從所述圖像樣本中裁切出來并歸類;
S2、樣本增強,將所述標注樣本進行隨機變換生成變換后樣本,利用生成模型生成與所述變換后樣本同分布的增強樣本;
S3、樣本合成,利用所述增強樣本生成訓練樣本,包括:S31、隨機抽取所述增強樣本中的所述手寫字符并將其拼接成字符串圖像;S32、在所述字符串圖像中加入隨機噪聲;S33、利用圖像融合算法,將加入所述隨機噪聲的字符串圖像與預先選定的背景融合;S34、生成背景融合后的字符串圖像中字符的標簽與坐標,最終形成所述訓練樣本;
S4、模型訓練,利用所述訓練樣本并通過目標檢測模型訓練檢測分類模型,包括:S411、利用所述訓練樣本通過YOLO-v3和Faster-RCNN訓練所述檢測分類模型;以及,利用所述訓練樣本并通過識別模型訓練手寫樣本識別模型,包括:S421、利用所述訓練樣本中有上下文依賴的手寫識別條目并通過能夠識別圖像序列對象的卷積循環神經網絡訓練所述手寫樣本識別模型,以及利用所述訓練樣本中普通的手寫識別條目并通過稠密卷積神經網絡訓練所述手寫樣本識別模型;
S5、識別應用,利用訓練好的所述檢測分類模型檢測出所述手寫字符的位置,然后再通過手寫樣本識別模型識別所述手寫字符。
2.如權利要求1所述的一種基于樣本增強的手寫樣本識別方法,其特征在于,所述步驟S2中將所述標注樣本進行隨機變換包括:對所述標注樣本的整體,和/或對除隨機固定所述標注樣本圖像的任意一個部分以外的其余部分進行隨機變換;所述隨機變換包括:透視變換、彈性扭曲、旋轉變換、平行四邊形變換、隨機裁剪、鏡像變換中的一種或多種,形成所述變換后樣本。
3.如權利要求1所述的一種基于樣本增強的手寫樣本識別方法,其特征在于,所述步驟S2中利用生成模型生成與所述變換后樣本同分布的增強樣本具體包括以下步驟:
S21、利用所述變換后樣本,訓練所述生成模型;
S22、利用訓練后的生成模型生成所述增強樣本。
4.如權利要求1所述的一種基于樣本增強的手寫樣本識別方法,其特征在于,所述步驟S4中所述訓練檢測分類模型還包括以下步驟:
S412、模型固化,將訓練好的所述訓練檢測分類模型的中間變量刪除,壓縮模型體積。
5.如權利要求1所述的一種基于樣本增強的手寫樣本識別方法,其特征在于,所述訓練樣本包括有上下文依賴的手寫識別條目以及普通的手寫識別條目;所述步驟S4中所述訓練手寫樣本識別模型還包括以下步驟:
S422、將網絡爬蟲爬取的語料信息進行數據清洗,作為語言模型訓練樣本;
S423、利用所述語言模型訓練樣本訓練統計語言模型,所述統計語言模型用于對手寫識別結果進行語義糾錯;
S424、模型固化,將訓練好的所述手寫樣本識別模型的中間變量刪除,壓縮模型體積。
6.如權利要求1~5中任意一項所述的一種基于樣本增強的手寫樣本識別方法,其特征在于,所述生成模型包括:生成對抗網絡,和/或變分自動編碼器。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于眾安信息技術服務有限公司,未經眾安信息技術服務有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201811623758.5/1.html,轉載請聲明來源鉆瓜專利網。





