[發明專利]一種手寫漢字識別方法、裝置及存儲介質在審

申請號：	202011102640.5	申請日：	2020-10-15
公開（公告）號：	CN112232195A	公開（公告）日：	2021-01-15
發明（設計）人：	薛晗慶;潘紅九;陳政;梁宇;竇小明;金娜;薛凱;顧天祺;張建;雷凈;于雪潔;趙俊翔;底亞峰;封慧英;李萌萌	申請（專利權）人：	北京臨近空間飛行器系統工程研究所
主分類號：	G06K9/00	分類號：	G06K9/00;G06K9/62;G06F16/31;G06N3/04
代理公司：	暫無信息	代理人：	暫無信息
地址：	100076 ***	國省代碼：	北京;11
權利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關鍵詞：	一種手寫漢字識別方法裝置存儲介質
鉆瓜網技術展會專利詞庫專利權人專利榜在售專利公布日期熱門專利

【說明書】：

本申請公開了一種手寫漢字識別方法、裝置及存儲介質，用于提高文檔掃描類圖像的手寫漢字體識別的可靠性和效率。本申請提供的手寫漢字識別方法包括：構建網絡結構；輸入待識別的漢字序列圖像；確定所述網絡結構中各層網絡的權重參數；根據所述權重參數，在所述網絡結構中計算所述待識別的漢字序列圖像，確定標簽序列，其中所述標簽序列包括漢字概率信息；根據所述標簽序列和漢字詞庫表，進行漢字反映射，確定識別出的漢字。本申請還提供了一種手寫漢字識別裝置及存儲介質。

技術領域

本申請涉及信息處理領域，尤其涉及一種手寫漢字識別方法和裝置。

背景技術

隨著可視內容數據的增加，在在拍照文檔、票據、表單表格、手稿文書、教育材料等領域的手寫漢字識別需求不斷增加。非手寫漢字在圖像或視頻中主要以印刷體或者水印形式呈現，對于每一段序列文字其字形偏旁、字與段落的間距等格式較為統一，而手寫漢字字體由于個人的書寫風格不同，導致不同人群書寫出的同一漢字的形體有所差異，對于初識漢字的少兒字體差異更為顯著，因此手寫漢字的識別難度較非手寫漢字的識別難度更大。現有技術中，先對單個文字進行切割，再將切割后的文字逐個提取特征并與特征庫進行匹配識別，效率較低，可靠性較差。

發明內容

針對上述技術問題，本申請實施例提供了一種手寫漢字識別方法、裝置及存儲介質，用以提高手寫漢字的識別效率和可靠性。

第一方面，本申請實施例提供的一種手寫漢字識別方法，包括：

構建網絡結構；

輸入待識別的漢字序列圖像；

確定所述網絡結構中各層網絡的權重參數；

根據所述權重參數，在所述網絡結構中計算所述待識別的漢字序列圖像，確定標簽序列，其中所述標簽序列包括漢字概率信息；

根據所述標簽序列和漢字詞庫表，進行漢字反映射，確定識別出的漢字。

進一步的，所述確定所述網絡結構中各層網絡的權重參數包括：

按批次加載訓練數據；

將所述訓練數據輸入到所述網絡結構中進行計算，確定漢字類別概率矩陣；

根據訓練數據的標簽序列和所述概率矩陣，通過損失函數運算得到誤差值；

將所述誤差值返回網絡結構進行權重參數的梯度更新；

將最佳的權重參數確定為所述網絡結構中各層網絡的權重參數。

進一步的，所述構建網絡結構還包括：

定義損失函數；

設置訓練超參數，所述超參數包括以下之一或者組合：學習率，學習衰減率或訓練周期。

優選的，所述按批次加載訓練數據包括：

將訓練數據按批次進行切分；

將切分后的訓練數據隨機打亂處理；

將隨機打亂處理后的訓練數據存入迭代器中。

進一步的，所述將所述訓練數據輸入到所述網絡結構中進行計算包括：

遍歷所述迭代器，將數據按批次輸入到網絡結構中進行計算。

進一步的，輸入待識別的漢字序列圖像之前，還包括：生成漢字詞庫表。

優選的，所述生成漢字詞庫表包括：

獲取漢字詞庫信息；

創建鏈表，將所述漢字詞庫中的文本逐一追加到鏈表中；

對所述鏈表中的文本進行去重處理，將重復出現的文本從所述鏈表中移除；

下載完整專利技術內容需要扣除積分，VIP會員可以免費下載。

免登錄下載普通用戶下載升級VIP會員，免費下載

該專利技術資料僅供研究查看技術是否侵權等信息，商用須獲得專利權人授權。該專利全部權利屬于北京臨近空間飛行器系統工程研究所，未經北京臨近空間飛行器系統工程研究所許可，擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作，請聯系【客服】

本文鏈接：http://www.szxzyx.cn/pat/books/202011102640.5/2.html，轉載請聲明來源鉆瓜專利網。

同類專利

專利分類

G 物理

G06 計算；推算；計數
G06K 數據識別；數據表示；記錄載體；記錄載體的處理
G06K9-00 用于閱讀或識別印刷或書寫字符或者用于識別圖形，例如，指紋的方法或裝置
G06K9-03 .錯誤的檢測或校正，例如，用重復掃描圖形的方法
G06K9-18 .應用具有附加代碼標記或含有代碼標記的打印字符的，例如，由不同形狀的各個筆畫組成的，而且每個筆畫表示不同的代碼值的字符
G06K9-20 .圖像捕獲
G06K9-36 .圖像預處理，即無須判定關于圖像的同一性而進行的圖像信息處理
G06K9-60 .圖像捕獲和多種預處理作用的組合

免登錄下載普通用戶下載升級VIP會員，免費下載

專利文獻下載

說明：

1、專利原文基于中國國家知識產權局專利說明書；

2、支持發明專利、實用新型專利、外觀設計專利（升級中）；

3、專利數據每周兩次同步更新，支持Adobe PDF格式；

4、內容包括專利技術的結構示意圖、流程工藝圖或技術構造圖；

5、已全新升級為極速版,下載速度顯著提升！歡迎使用！

請您登陸后，進行下載，點擊【登陸】【注冊】

[發明專利]一種手寫漢字識別方法、裝置及存儲介質在審

專利文獻下載

[發明專利]一種手寫漢字識別方法、裝置及存儲介質在審