[發明專利]聯機中英文混合手寫識別方法在審
| 申請號: | 202011259598.8 | 申請日: | 2020-11-12 |
| 公開(公告)號: | CN112464926A | 公開(公告)日: | 2021-03-09 |
| 發明(設計)人: | 付鵬斌;劉鵬輝;楊惠榮 | 申請(專利權)人: | 北京工業大學 |
| 主分類號: | G06K9/20 | 分類號: | G06K9/20;G06K9/32;G06K9/62;G06K9/68;G06N3/04;G06N3/08 |
| 代理公司: | 北京思海天達知識產權代理有限公司 11203 | 代理人: | 張慧 |
| 地址: | 100124 *** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 聯機 中英文 混合 手寫 識別 方法 | ||
本發明涉及一種聯機中英文混合手寫識別方法,用于在線輸入法、在線輸入系統中英文混合手寫輸入識別。首先,對聯機中英文混合手寫文本行進行傾斜矯正處理,并對其進行基于規則的過切分,其次,把過切分完成的字符片段進行中英文二分類,并且把字符片段通過路徑評價、搜索算法得到一條字符合并最佳路徑;最后,把每類字符送入相應的聯機手寫字符識別模型進行識別,把識別結果按照原先的順序進行重組,最終得到聯機中英文混合手寫文本識別結果,實驗證明,聯機中英文混合手寫識別率可達93.67%。
技術領域
本發明涉及圖像處理、文字識別以及深度學習領域。
背景技術
傳統上,人們與計算設備的交互為鍵盤輸入。隨著計算機技術的高速發展,進入了移動互聯網時代,觸摸屏設備的加速發展轉變了人機交互方式,人們更樂于用手指或手寫筆這種更自然的交互方式進行文本輸入。在手寫輸入法領域,傳統的手寫系統受輸入設備、屏幕尺寸、識別技術等因素所限,大多只支持單字符輸入識別,這樣往往會限制了用戶的輸入速度,影響用戶體驗。隨著移動終端設備觸摸屏尺寸的擴大,傳統筆記本電腦過渡到觸摸顯示器等因素的影響,在線手寫文本輸入將會得到廣泛的應用。為了支撐在線手寫文本的發展,針對聯機手寫文本識別技術的研究顯得至關重要。
全球化和國際化的發展,文本的內容不再局限于單一語種,中英文混合手寫文本識別研究也逐漸成為了熱點。對于印刷體中英文混合文章的識別,已經取得了令人滿意的結果,但是聯機手寫體中英文混合文本由于漢字種類繁多、結構復雜、相似字較多、書寫不規范,英文單詞普遍連筆等問題,使得中英文混合手寫文本識別至今是一個難點。
現階段,大多數研究成果是對單語種的聯機手寫的識別,而對于聯機中英文混合手寫識別的研究比較缺乏。在商業領域,比較成熟的是Myscript公司開發的付費手寫筆記軟件nebo,支持聯機中英文混合手寫識別,識別效果達到了業界最高水平,但該軟件需付費,技術不公開。國內輸入法絕大多數只支持單一的中文或英文識別,不支持中英文混合手寫識別,因此,聯機中英文混合手寫識別研究具有廣闊的發展前景。聯機中英文混合手寫識別不僅需要研究單語種的聯機手寫識別,還要根據語種特征,研究語種分類算法,并且需要研究中英文文本切分算法。因此,聯機中英文混合手寫識別研究具有一定的挑戰性。
發明內容
中英文混合手寫識別的難點在于中英文混合文本的切分問題以及分類問題,針對國內輸入法絕大多數不支持聯機中英文混合手寫識別,本發明通過研究中英文混合手寫文本的特點,從聯機手寫字符數據集的建立及擴充、聯機手寫字符識別模型的訓練、聯機中英文混合手寫文本行的預處理、過切分、中英文二分類、識別及結果后處理幾個方面,實現了聯機中英文混合手寫識別方法。
實現本發明方法的主要步驟如下:首先,收集建立聯機手寫英文字符、中文字符、中英文混合句子數據集,改進卷積神經網絡模型,訓練出聯機手寫英文字符識別模型、聯機手寫中文漢字識別模型為前提工作;然后對聯機中英文混合手寫文本行進行傾斜矯正,接著對該文本行進行基于規則的過切分,接著對切分完成的字符片段進行中英文二分類,接著對每一類字符片段通過路徑評價、搜索找出最佳合并路徑,得到評分最優的英文單字符序列和中文單字符序列,分別送入聯機手寫英文字符識別模型、聯機手寫中文漢字識別模型進行識別,最后把識別結果進行重組,得到聯機中英文混合手寫文本的最終結果,在聯機中英文混合手寫數據集上測試,混合中英文文本識別率可達93.67%。
聯機中英文混合手寫識別方法,包括如下步驟:
步驟一,聯機手寫數據集的建立及其擴充,具體為:聯機手寫英文字符數據集的建立、聯機手寫中文漢字數據集的合并及擴充以及聯機混合手寫中英文句子數據集的建立,聯機手寫數據集的數據格式為點坐標序列:{x,y},依次為X坐標值、Y坐標值;每個字符都是由多個點組成的,每個字符的數據格式是由組成該字符的多個點的點坐標序列構成的;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京工業大學,未經北京工業大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011259598.8/2.html,轉載請聲明來源鉆瓜專利網。





