[發明專利]用于手寫字符識別的基于書寫變體的書寫者自適應有效
| 申請號: | 200680047187.4 | 申請日: | 2006-12-18 |
| 公開(公告)號: | CN101331476A | 公開(公告)日: | 2008-12-24 |
| 發明(設計)人: | A·A·阿布杜勒卡德;K·H·切拉皮拉;P·Y·西瑪德 | 申請(專利權)人: | 微軟公司 |
| 主分類號: | G06F17/00 | 分類號: | G06F17/00 |
| 代理公司: | 上海專利商標事務所有限公司 | 代理人: | 陳斌 |
| 地址: | 美國華*** | 國省代碼: | 美國;US |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 用于 手寫 字符 識別 基于 書寫 變體 自適應 | ||
技術領域
本發明涉及幫助識別與手寫相關聯的字符的系統和/或方法。
背景技術
計算機硬件、軟件和聯網的技術進步已經產生了能夠從基本上世界上任何 地方彼此通信的高效的、成本有效的計算系統(例如,臺式計算機、膝上型計 算機、手持式計算機、蜂窩電話、服務器……)。這些系統持續進展成更可靠 的、穩健的且用戶友好的系統。結果,越來越多的企業和消費者正在購買計算 機并將其用作對傳統的紙件和口頭媒體的可行電子替換來交換信息。許多企業 和消費者正在充分利用計算技術以提高效率并降低成本。例如,消費者可掃描 并儲存文檔、創建帶有文本覆蓋的數字圖像相冊、搜索并檢索特定信息(例如, 具有各種類型的數據的網頁)、上傳來自數碼相機的圖片、查看財務報表、發 送和/或接收數字傳真、交換通訊(例如,電子郵件、聊天室、IP語音……) 等等。
結果,這些計算系統和/或設備結合了各種用于輸入信息的技術和/或方法。 計算系統和/或設備利用諸如但不限于鍵盤、鍵區、觸摸墊、觸屏、揚聲器、指 示筆(例如,掃描筆)、書寫墊……來便于輸入信息。然而,利用用戶手寫的 輸入設備會帶來每一用戶不能相似地利用數據輸入技術(例如,書寫)的用戶 個性化缺陷。
用戶的手寫可以像用戶那樣獨特,其中這一獨特性可用于識別目的。在各 種計算系統和/或設備中實現的商業手寫識別系統試圖通過利用包括來自多個 完全不同的用戶的數據在內的大型訓練數據集來減少書寫者變化的影響。即使 在有來自多達1500個用戶的手寫樣本可用的情況下,在手寫中也有足夠的變 化來唯一地識別每一用戶。
從機器學習的觀點來看,這種變化使得手寫識別對于計算機而言是困難 的。盡管用戶內字符(例如,來自同一用戶)具有較小的變化,但是用戶間字 符(例如,來自不同用戶)具有很大的變化,并且造成了識別錯誤。結果,從 得自一組用戶(即使有數百個用戶)的訓練數據中學習并不必然會產生很好地 推廣到未看到過的手寫風格的模型。使用通用(例如,書寫者無關)識別器的 計算機識別體驗對于具有罕見的書寫風格的用戶而言尤其拙劣。對于該不良性 能的一種解釋是經訓練的通用識別器是不完善的,因為它未學習去識別未看到 過的用戶的書寫風格。
改善識別器對于未看見過的書寫風格的性能的一種實用方法是書寫者自 適應(或個性化)。個性化使得識別器能夠通過收集來自用戶的附加數據樣本 并從中進行學習來自適應到特定用戶的手寫。很清楚,這是對用戶所需的訓練 樣本的數量、所實現的差錯率的降低、以及對用戶而言察覺到的不便之間的折 衷。訓練數據的量越大,個性化識別器也就越好,但是對基于樣本輸入和/或利 用這些樣本的訓練的用戶也就越不便。
發明內容
以下提出了本發明的簡化概述以便提供對此處所描述的某些方面的基本 理解。本概述并不是所要求保護的主題的廣泛綜述。它并不旨在確定所要求保 護的主題的關鍵或重要要素,也不旨在勾畫本發明的范圍。其唯一的目的是以 簡化的形式提出所要求保護的本發明的某些概念,作為以后提出的更詳細描述 的序言。
本發明涉及利用書寫變體(例如,字符形狀和/或風格)訓練的分類器來 幫助識別與手寫相關聯的字符的系統和/或方法。一個性化組件可經由一接口來 接收與手寫字符相關的數據,其中該個性化組件可通過采用用書寫變體數據訓 練的分類器來提供對手寫字符的優化的識別。該書寫變體數據可以是,例如, 與一手寫風格相關的自動生成和/或手動生成的數據。該個性化組件可提供書寫 者自適應,其中書寫者自適應可以是將通用(例如,書寫者無關)手寫識別器 轉換成具有對任何特定用戶的改進的準確度的個性化(例如,書寫者相關)識 別器的過程。
此外,該個性化組件通過采用用書寫變體數據訓練的第一分類器以及用非 書寫變體數據訓練的第二訓練器來提供優化的手寫識別,其中該第一分類器和 該第二分類器的輸出可被組合。輸出組合可以由例如線性組合器、組合分類器、 支持矢量機、線性分類器、一系列規則等來實現。輸出組合提供了對手寫的增 強的識別和/或分析。此外,輸出組合的采用可通過利用用戶手寫樣本來優化。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于微軟公司,未經微軟公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/200680047187.4/2.html,轉載請聲明來源鉆瓜專利網。





