[發明專利]手寫模型訓練方法、手寫字識別方法、裝置、設備及介質有效
| 申請號: | 201810563480.0 | 申請日: | 2018-06-04 |
| 公開(公告)號: | CN109034279B | 公開(公告)日: | 2023-04-25 |
| 發明(設計)人: | 黃春岑;周罡 | 申請(專利權)人: | 平安科技(深圳)有限公司 |
| 主分類號: | G06V30/244 | 分類號: | G06V30/244;G06V10/774;G06V10/82;G06N3/04 |
| 代理公司: | 深圳眾鼎專利商標代理事務所(普通合伙) 44325 | 代理人: | 胡志桐 |
| 地址: | 518000 廣東省深*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 手寫 模型 訓練 方法 寫字 識別 裝置 設備 介質 | ||
1.一種手寫模型訓練方法,其特征在于,包括:
獲取規范中文字訓練樣本,并將所述規范中文字訓練樣本按預設批次進行批分;
將批分后的規范中文字訓練樣本輸入到雙向長短時記憶神經網絡中進行訓練,獲取雙向長短時記憶神經網絡的前向輸出,根據雙向長短時記憶神經網絡的前向輸出,采用時間相關反向傳播算法更新雙向長短時記憶神經網絡的網絡參數,獲取規范中文字識別模型;
獲取非規范中文字訓練樣本,并將所述非規范中文字訓練樣本按預設批次進行批分;
將批分后的非規范中文字訓練樣本輸入到所述規范中文字識別模型中進行訓練,獲取規范中文字識別模型的前向輸出,根據規范中文字識別模型的前向輸出,采用時間相關反向傳播算法更新所述規范中文字識別模型的網絡參數,獲取調整中文手寫字識別模型;
獲取待測試中文字樣本,采用所述調整中文手寫字識別模型識別所述待測試中文字樣本,獲取識別結果與真實結果不符的出錯字,把所有所述出錯字作為出錯字訓練樣本;
將所述出錯字訓練樣本輸入到所述調整中文手寫字識別模型中進行訓練,獲取調整中文手寫字識別模型的前向輸出,根據調整中文手寫字識別模型的前向輸出,采用基于批量梯度下降的時間相關反向傳播算法更新調整中文手寫字識別模型的網絡參數,獲取目標中文手寫字識別模型。
2.根據權利要求1所述的手寫模型訓練方法,其特征在于,所述獲取規范中文字訓練樣本,并將所述規范中文字訓練樣本按預設批次進行批分,包括:
獲取待處理中文字訓練樣本中每個中文字的像素值特征矩陣,將所述像素值特征矩陣中每個像素值進行歸一化處理,獲取每個中文字的歸一化像素值特征矩陣,其中,歸一化處理的公式為MaxValue為每個中文字的像素值特征矩陣中像素值的最大值,MinValue為每個中文字的像素值特征矩陣中像素值的最小值,x為歸一化前的像素值,y為歸一化后的像素值;
將每個中文字的歸一化像素值特征矩陣中的像素值劃分為兩類像素值,基于所述兩類像素值建立每個中文字的二值化像素值特征矩陣,將每個中文字的二值化像素特征矩陣組合作為規范中文字訓練樣本,并將所述規范中文字訓練樣本按預設批次進行批分。
3.根據權利要求1所述的手寫模型訓練方法,其特征在于,所述將批分后的規范中文字訓練樣本輸入到雙向長短時記憶神經網絡中進行訓練,獲取雙向長短時記憶神經網絡的前向輸出,根據雙向長短時記憶神經網絡的前向輸出,采用時間相關反向傳播算法更新雙向長短時記憶神經網絡的網絡參數,獲取規范中文字識別模型,包括:
將批分后的規范中文字訓練樣本按序列正向輸入到雙向長短時記憶神經網絡中,獲取正向輸出Fo,將批分后的規范中文字訓練樣本按序列反向輸入到雙向長短時記憶神經網絡中,獲取反向輸出Bo,將所述正向輸出和所述反向輸出相加,獲取前向輸出To,公式表示為To=Fo+Bo;
根據所述前向輸出和真實結果構建誤差函數,所述誤差函數的表達式為其中,N表示訓練樣本總數,xi表示第i個訓練樣本的前向輸出,yi表示與xi相對應的第i個訓練樣本的真實結果;
根據所述誤差函數,采用時間相關反向傳播算法更新雙向長短時記憶神經網絡的網絡參數,獲取規范中文字識別模型,其中,隱藏層輸出的梯度為神經元狀態的梯度為輸入門的梯度為遺忘門的梯度為輸出門的梯度為隱藏層狀態的梯度為其中,K表示輸出層神經元的個數,k表示第k個輸出層神經元,H表示隱藏層神經元的個數,h表示第h個隱藏層神經元,C表示神經元狀態所對應的神經元的個數,wck表示神經元和第k個輸出層神經元的連接權值,wch表示神經元和第h個隱藏層神經元的連接權值,表示當前時刻輸出層神經元的梯度,表示下一時刻隱藏層神經元的梯度,控制神經元輸出當前信息的比例,控制神經元遺忘過去信息的比例,表示當前時刻的神經元狀態,wcl表示神經元跟輸入門連接的權值,wcφ表示神經元和遺忘門連接的權值,wcw表示神經元和輸出門連接的權值,表示當前時刻第c個神經元狀態對應神經元的輸入,表示輸入門的輸入,表示遺忘門的輸入,表示輸出門的輸入,控制神經元接收當前信息的比例。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于平安科技(深圳)有限公司,未經平安科技(深圳)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810563480.0/1.html,轉載請聲明來源鉆瓜專利網。





