[發明專利]基于多任務的模型訓練方法、字符識別方法及裝置在審
| 申請號: | 202010151852.6 | 申請日: | 2020-03-06 |
| 公開(公告)號: | CN111401374A | 公開(公告)日: | 2020-07-10 |
| 發明(設計)人: | 吳紅;歐陽潘義;向釗豫 | 申請(專利權)人: | 湖南快樂陽光互動娛樂傳媒有限公司 |
| 主分類號: | G06K9/34 | 分類號: | G06K9/34;G06N3/04;G06N3/08 |
| 代理公司: | 北京集佳知識產權代理有限公司 11227 | 代理人: | 張靜 |
| 地址: | 410003 湖南省*** | 國省代碼: | 湖南;43 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 任務 模型 訓練 方法 字符 識別 裝置 | ||
本發明實施例公開了一種字符模型的訓練方法,包括:獲取訓練樣本;所述訓練樣本為包含字符的圖片;對訓練樣本進行預處理;采用編碼器提取訓練樣本中字符的特征;將提取到的訓練樣本的字符特征分別輸入到CTC模型和注意力模型中進行解碼操作,并獲取CT模型的損失以及注意力模型的損失;基于CT模型的損失以及注意力模型的損失,計算聯合損失;基于聯合損失對編碼器、CTC模型和注意力模型進行訓練。這樣,結合CTC模型的優勢和注意力模型的優勢對字符識別模型進行訓練,由此不僅可以縮短字符識別模型的訓練時間,并且可以得到識別結果更加準確的字符識別模型。
技術領域
本發明涉及計算機技術領域,尤其涉及基于多任務的模型訓練方法、字符識別方法及裝置。
背景技術
當前,在很多場景下得到的圖片都包含字符,例如車牌、從視頻中獲取到的包含彈幕或者字幕的圖片、包含特殊信息的圖片等。OCR識別技術的發展,使得從圖片中識別出字符變成了可能。
現有技術中,通常采用統計模式識別、結構模式識別和神經網絡識別的方法,其中統計模式識別統計字符的整體規律并將統計信息作為字符特征,輸入到分類網絡中通過判決函數識別,該法對外部條件的魯棒性不強且計算量過大;結構模式識別方法魯棒性差且算法復雜而無實用性;神經網絡作為一種機器學習的方法,需要經過充足的訓練和參數調整后得到的,相對于前兩種方式神經網絡可以具備很好地泛化能力和正確率。
但是,當前對于神經網絡的訓練,通常會出現訓練費時或者準確度不高的問題。
發明內容
有鑒于此,本發明公開了一種字符識別模型的訓練方法、字符識別方法,通過CTC模型和注意力模型作為字符識別模型的解碼器,同時執行解碼任務,這樣提高訓練效率、縮短訓練時間,并且得到準確率更高的字符識別模型。
本發明實施例公開了一種字符識別模型的訓練方法,包括:
獲取訓練樣本;所述訓練樣本為包含字符的圖片;
對所述訓練樣本進行預處理;
采用編碼器提取訓練樣本中字符的特征;
將提取到的訓練樣本的字符特征分別輸入到CTC神經網絡的時序分類模型和注意力模型中進行解碼操作,并獲取CTC神經網絡的時序類分類模型的損失以及注意力模型的損失;
基于CTC神經網絡的時序分類模型的損失以及注意力模型的損失,計算聯合損失;
基于聯合損失對編碼器、CTC神經網絡的時序分類模型和注意力模型進行訓練。
可選的,所述預設的編碼器包括:深度卷積神經網絡模型和雙向長短記憶網絡模型;
所述采用預設的編碼器提取訓練樣本中字符的特征信息,包括:
采用卷積神經網絡模型提取所述訓練樣本中第一特征;
將所述第一特征信息輸入到雙向長短記憶網絡模型中,提取第二特征;所述第二特征為保證各字符之間關聯關系的特征。
可選的,所述基于CTC神經網絡的時序分類模型的損失以及注意力模型的損失,計算聯合損失,包括:
獲取CTC神經網絡的時序分類模型的損失以及注意力模型的損失的權重;基于CTC神經網絡的時序分類模型的損失以及注意力模型的損失的權重,計算CTC神經網絡的時序分類模型的損失以及注意力模型的損失的加權和。
可選的,所述基于聯合損失對編碼器、CTC神經網絡的時序分類模型和注意力模型進行訓練,包括:
應用梯度下降方法回傳聯合損失更新編碼器各層的參數;
應用梯度下降方法回傳聯合損失更新CTC神經網絡的時序分類模型各層的參數;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于湖南快樂陽光互動娛樂傳媒有限公司,未經湖南快樂陽光互動娛樂傳媒有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010151852.6/2.html,轉載請聲明來源鉆瓜專利網。





