[發明專利]識別模型的優化方法和裝置在審

申請號：	201910270038.3	申請日：	2019-04-04
公開（公告）號：	CN110135409A	公開（公告）日：	2019-08-16
發明（設計）人：	許洋;劉鵬;王健宗	申請（專利權）人：	平安科技（深圳）有限公司
主分類號：	G06K9/20	分類號：	G06K9/20;G06K9/32
代理公司：	深圳市立智方成知識產權代理事務所(普通合伙) 44468	代理人：	王增鑫
地址：	518000 廣東省深圳市福田區福***	國省代碼：	廣東;44
權利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關鍵詞：	字段標注信息方法和裝置圖片標注優化訓練數據集定期接收圖片發送圖片添加圖像處理訓練數據訓練樣本可信度返回更新保證
鉆瓜網技術展會專利詞庫專利權人專利榜在售專利公布日期熱門專利

【說明書】：

本發明涉及圖像處理的技術領域，本發明提供一種識別模型的優化方法和裝置，所述方法包括獲取識別模型在生產中待識別的第一字段圖片；將所述第一字段圖片發送至眾包平臺進行標注，得到對應的標注信息；其中，所述眾包平臺的用戶對所述第一字段圖片進行識別標注；定期接收所述眾包平臺返回的第一字段圖片的標注信息，根據所述第一字段圖片的標注信息，獲取訓練字段圖片；將所述訓練字段圖片添加至所述識別模型的訓練數據集中，并利用所述訓練數據集對所述識別模型進行優化。本發明避免了不能在短時間內不能獲取可信度高的訓練字段圖片的問題，保證及時對所述識別模型的訓練樣本進行更新，提升了所述識別模型的識別能力。

技術領域

本發明涉及圖像處理的技術領域，具體而言，本發明涉及一種識別模型的優化方法和裝置。

背景技術

隨著智能識別發展的趨勢，文字智能識別已經運用至各領域中。目前，文字識別技術主要是通過訓練字段識別模型，然后再對目標字段進行識別。但是，生成字段識別模型常常受限于業務方提供的數據，且難以在短時間內完成對字段識別模型進行優化，不利于提高識別模型的識別度。

發明內容

為克服以上技術問題，特別是現有技術中識別模型常常受限于業務方提供的數據的問題，特提出以下技術方案：

第一方面，本發明提供一種識別模型的優化方法，包括以下步驟：

獲取識別模型在生產中待識別的第一字段圖片；

將所述第一字段圖片發送至眾包平臺進行標注，得到對應的標注信息；其中，所述眾包平臺的用戶對所述第一字段圖片進行識別標注；

定期接收所述眾包平臺返回的第一字段圖片的標注信息，根據所述第一字段圖片的標注信息，獲取訓練字段圖片；

將所述訓練字段圖片添加至所述識別模型的訓練數據集中，并利用所述訓練數據集對所述識別模型進行優化。

在其中一個實施例中，所述標注信息包括所述第一字段圖片的標注編碼和眾包平臺對帶有標注編碼的第一字段圖片的第一識別結果；

所述根據所述第一字段圖片的標注信息，獲取訓練字段圖片的步驟包括：

根據所述標注編碼對對應的字段圖片的所述第一識別結果進行編碼；

根據編碼的結果，為所述第一識別結果分配對應的標注編碼，得到的完成識別的第一字段圖片作為訓練字段圖片。

在其中一個實施例中，所述將所述訓練字段圖片添加至所述識別模型的訓練數據集中的步驟前，還包括：

對所述第一字段圖片進行數據增強處理，得到第二字段圖片；

將所述第二字段圖片發送至所述眾包平臺進行標注，根據對應的標注編碼，獲取所述第二字段圖片的第二識別結果；

將所述第一識別結果與所述第二識別結果進行比較；

若兩者一致，則將所述第二字段圖片作為訓練字段圖片。

在其中一個實施例中，所述對所述第一字段圖片進行數據增強處理，得到第二字段圖片的步驟，包括：

對所述第一字段圖片進行有效內容的識別，確定所述第一字段圖片的第一有效區域；

在所述第一有效區域的邊界外對所述第一字段圖片進行裁剪；其中，裁剪得到的區域邊框為檢測框；

將所述檢測框向內縮減若干個像素，得到第二有效區域，根據所述第二有效區域截取第二字段圖片；

其中，所述有效內容為所述第一字段圖片的字段內容。

在其中一個實施例中，在所述將所述有效區域向內縮減若干個像素的步驟之前，還包括：

下載完整專利技術內容需要扣除積分，VIP會員可以免費下載。

免登錄下載普通用戶下載升級VIP會員，免費下載

該專利技術資料僅供研究查看技術是否侵權等信息，商用須獲得專利權人授權。該專利全部權利屬于平安科技（深圳）有限公司，未經平安科技（深圳）有限公司許可，擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作，請聯系【客服】

本文鏈接：http://www.szxzyx.cn/pat/books/201910270038.3/2.html，轉載請聲明來源鉆瓜專利網。

同類專利

專利分類

G 物理

G06 計算；推算；計數
G06K 數據識別；數據表示；記錄載體；記錄載體的處理
G06K9-00 用于閱讀或識別印刷或書寫字符或者用于識別圖形，例如，指紋的方法或裝置
G06K9-03 .錯誤的檢測或校正，例如，用重復掃描圖形的方法
G06K9-18 .應用具有附加代碼標記或含有代碼標記的打印字符的，例如，由不同形狀的各個筆畫組成的，而且每個筆畫表示不同的代碼值的字符
G06K9-20 .圖像捕獲
G06K9-36 .圖像預處理，即無須判定關于圖像的同一性而進行的圖像信息處理
G06K9-60 .圖像捕獲和多種預處理作用的組合

免登錄下載普通用戶下載升級VIP會員，免費下載

專利文獻下載

說明：

1、專利原文基于中國國家知識產權局專利說明書；

2、支持發明專利、實用新型專利、外觀設計專利（升級中）；

3、專利數據每周兩次同步更新，支持Adobe PDF格式；

4、內容包括專利技術的結構示意圖、流程工藝圖或技術構造圖；

5、已全新升級為極速版,下載速度顯著提升！歡迎使用！

請您登陸后，進行下載，點擊【登陸】【注冊】