[發明專利]一種手寫識別方法、裝置、電子設備及介質在審
| 申請號: | 202011640989.4 | 申請日: | 2020-12-31 |
| 公開(公告)號: | CN112766080A | 公開(公告)日: | 2021-05-07 |
| 發明(設計)人: | 辛曉哲;秦波;趙志勇;王英俊;王杰;蘇雪峰;陳偉 | 申請(專利權)人: | 北京搜狗科技發展有限公司 |
| 主分類號: | G06K9/00 | 分類號: | G06K9/00;G06K9/62;G06N3/04;G06N3/08 |
| 代理公司: | 北京華沛德權律師事務所 11302 | 代理人: | 房德權 |
| 地址: | 100084 北京市海淀區中關*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 手寫 識別 方法 裝置 電子設備 介質 | ||
1.一種手寫識別方法,其特征在于,包括:
實時獲取手寫原始軌跡數據;
對所述手寫原始軌跡數據進行壓縮,得到壓縮手寫軌跡數據;
將所述壓縮手寫軌跡數據輸入到壓縮后的手寫識別模型中進行識別,得到所述手寫原始軌跡數據對應的文字識別結果,其中,所述手寫識別模型是利用訓練數據集中每個訓練數據的手寫軌跡數據訓練得到的,壓縮后的所述手寫識別模型是對所述手寫識別模型進行模型壓縮得到的。
2.如權利要求1所述的方法,其特征在于,所述實時獲取手寫原始軌跡數據,包括:
對實時獲取的手寫輸入數據進行數據預處理,其中,所述數據預處理包括重采樣;
根據預處理后的所述手寫輸入數據,實時獲取所述手寫原始軌跡數據。
3.如權利要求2所述的方法,其特征在于,所述對所述手寫原始軌跡數據進行壓縮,得到壓縮手寫軌跡數據,包括:
對所述手寫原始軌跡數據進行維度壓縮,得到所述壓縮手寫軌跡數據,其中,所述壓縮手寫軌跡數據中每個維度的數據與所述手寫識別模型的模型識別結果的相關性不低于設定閾值。
4.如權利要求1所述的方法,其特征在于,所述手寫識別模型為端到端模型。
5.如權利要求4所述的方法,其特征在于,所述手寫識別模型的訓練步驟,包括:
獲取訓練數據集及與所述訓練數據集對應的預選訓練模型;
獲取所述訓練數據集中每個訓練數據的手寫軌跡數據;
利用每個訓練數據的手寫軌跡數據,對所述預選訓練模型進行訓練,得到已訓練的所述預選訓練模型作為所述手寫識別模型。
6.如權利要求5所述的方法,其特征在于,所述獲取訓練數據集,包括:
獲取歷史手寫軌跡數據集,其中,所述歷史手寫軌跡數據集包括水平手寫的軌跡數據、豎直手寫的軌跡數據、疊寫的軌跡數據和旋轉手寫的軌跡數據中的一種或多種;
對所述歷史手寫軌跡數據集中的手寫數據進行數據增強,將數據增強后的所述歷史手寫軌跡數據集作為訓練數據集。
7.如權利要求6所述的方法,其特征在于,所述利用每個訓練數據的手寫軌跡數據,對所述預選訓練模型進行訓練,得到所述手寫識別模型,包括:
獲取每個訓練數據中的困難樣本和簡單樣本;
采用先訓練困難樣本后訓練簡單樣本的方式,對所述預選模型進行訓練;
在對所述預選模型進行訓練過程中,對所述預選訓練模型進行微調,得到已訓練的所述預選訓練模型作為所述手寫識別模型。
8.一種手寫識別裝置,其特征在于,包括:
手寫軌跡獲取模塊,用于實時獲取手寫原始軌跡數據;
壓縮軌跡獲取模塊,用于對所述手寫原始軌跡數據進行壓縮,得到壓縮手寫軌跡數據;
識別模塊,用于將所述壓縮手寫軌跡數據輸入到壓縮后的手寫識別模型中進行識別,得到所述手寫原始軌跡數據對應的文字識別結果,其中,所述手寫識別模型是利用訓練數據集中每個訓練數據的手寫軌跡數據訓練得到的,壓縮后的所述手寫識別模型是對所述手寫識別模型進行模型壓縮得到的。
9.一種用于手寫識別的裝置,其特征在于,包括有存儲器,以及一個或者一個以上的程序,其中一個或者一個以上程序存儲于存儲器中,且經配置以由一個或者一個以上處理器執行所述一個或者一個以上程序包含如權利要求1-7任一權項所述的方法步驟。
10.一種機器可讀介質,其上存儲有指令,當由一個或多個處理器執行時,使得裝置執行如權利要求1-7中一個或多個所述的方法。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京搜狗科技發展有限公司,未經北京搜狗科技發展有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011640989.4/1.html,轉載請聲明來源鉆瓜專利網。





