[發明專利]手寫識別方法及裝置在審
| 申請號: | 201810975834.2 | 申請日: | 2018-08-24 |
| 公開(公告)號: | CN110858317A | 公開(公告)日: | 2020-03-03 |
| 發明(設計)人: | 辛曉哲 | 申請(專利權)人: | 北京搜狗科技發展有限公司;搜狗(杭州)智能科技有限公司 |
| 主分類號: | G06K9/68 | 分類號: | G06K9/68 |
| 代理公司: | 北京華圣典睿知識產權代理有限公司 11510 | 代理人: | 趙景平 |
| 地址: | 100084 北京市海淀區中關*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 手寫 識別 方法 裝置 | ||
本發明公開了一種手寫識別方法及裝置,該方法包括:獲取字符筆跡;獲取對應所述字符筆跡所屬語言類別的切分模型;利用所述切分模型對所述字符筆跡進行切分,得到切分塊序列;對所述切分塊序列進行識別,得到所述字符筆跡對應的字符串。利用本發明,可以在數據資源相對較少的情況下,也能夠達到相對較高的識別準確率。
技術領域
本發明涉及手寫識別領域,具體涉及一種手寫識別方法及裝置。
背景技術
手寫識別技術,是指將在手寫設備上書寫時產生的有序軌跡信息轉化為文字內碼的過程,實際上是手寫軌跡的坐標序列到文字的內碼的一個映射過程,是人機交互最自然、最方便的手段之一。隨著智能手機、掌上電腦等智能終端的普及,手寫識別技術也進入了規模應用時代。
由于不同國家的語言具有不同的書寫特點,因此,現有針對單一語種的手寫識別技術不能很好地實現對其它語種手寫文本的識別。為此,業內提出了一些針對多國語言進行手寫識別的技術方案,比如基于LSTM(Long Short-Term Memory,長短期記憶網絡)+CTC(Connectionist Temporal Classification)的序列識別方法,基于規則的HMM(HiddenMarkov Model,隱馬爾科夫模型)方法等。其中,LSTM方法需要大量數據訓練才能得到較好的收斂結果,需要大量的計算資源和訓練時間,才能取得較好的字準確率(詞準確率會相應幅度降低更多);而基于HMM的方法雖然能夠有效解決草書連筆問題,但是該方法在特征提取的過程非常困難,而特征提取又直接影響到最終模型效果。
發明內容
本發明實施例提供一種手寫識別方法及裝置,可以在數據資源相對較少的情況下,也能夠達到相對較高的識別準確率。
為此,本發明提供如下技術方案:
一種手寫識別方法,所述方法包括:
獲取字符筆跡;
獲取對應所述字符筆跡所屬語言類別的切分模型;
利用所述切分模型對所述字符筆跡進行切分,得到切分塊序列;
對所述切分塊序列進行識別,得到所述字符筆跡對應的字符串。
可選地,所述語言類別包括:連筆字符書寫類語言和非連筆字符書寫類語言。
可選地,所述方法還包括:通過以下方式預先構建對應連筆字符書寫類語言的切分模型:
采集連筆筆跡數據作為訓練樣本,并標注所述訓練樣本的切分點;
確定每個訓練樣本的特征信息;所述特征信息包括:所述訓練樣本的基線;所述基線為所述字符筆跡在Y軸或X軸投影坐標點數量最多的區間的均線;
確定所述訓練樣本與其基線的交點,并將所述交點作為預估切分信息;
利用所述預估切分信息及標注信息訓練得到對應連筆字符書寫類語言的切分模型。
可選地,所述切分模型為回歸模型或者卷積神經網絡模型。
可選地,所述方法還包括:在對所述切分塊序列進行識別之前,判斷所述字符筆跡對應的語言類別是否為易產生過切分的語言;如果是,則對所述切分塊序列中的切分塊進行組合處理;否則執行對所述切分塊序列進行識別的步驟。
可選地,所述對所述切分塊序列中的切分塊進行組合處理包括:
提取各切分塊的幾何特征;
利用預先構建的多元幾何模型及相鄰切分塊的幾何特征判斷所述相鄰切分塊是否屬于同一個字符;
如果是,則將所述相鄰切分塊合并。
可選地,所述方法還包括:通過以下方式預先構建所述多元幾何模型:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京搜狗科技發展有限公司;搜狗(杭州)智能科技有限公司,未經北京搜狗科技發展有限公司;搜狗(杭州)智能科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810975834.2/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:集液箱
- 下一篇:衣物處理設備及其底座組件





