[發(fā)明專利]用于在云輸入法中更新語言模型的云端服務器及其終端有效
| 申請?zhí)枺?/td> | 201310076668.X | 申請日: | 2013-03-11 |
| 公開(公告)號: | CN104049766B | 公開(公告)日: | 2017-05-31 |
| 發(fā)明(設計)人: | 肖日新;陳龍;何明哲 | 申請(專利權)人: | 百度國際科技(深圳)有限公司 |
| 主分類號: | G06F3/023 | 分類號: | G06F3/023;G06F3/0489 |
| 代理公司: | 北京銘碩知識產權代理有限公司11286 | 代理人: | 張云珠,戴嵩瑋 |
| 地址: | 518057 廣東省深圳市南山*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 用于 輸入法 更新 語言 模型 云端 服務器 及其 終端 | ||
技術領域
本申請涉及云輸入技術,更具體地說,涉及一種基于終端用戶的輸入行為來實時更新語言模型的云端服務器以及相應的終端。
背景技術
隨著互聯(lián)網技術和信息處理技術發(fā)展到云計算的時代,基于云計算的各種服務不斷增加,其中,云輸入是指應用了云計算技術的輸入法,利用云輸入技術,終端無需下載和安裝全部客戶端軟件,主要通過與云端服務器的在線連接即可完成字符的輸入。
圖1示出根據(jù)現(xiàn)有技術的云輸入系統(tǒng)。如圖1所示,各種終端(例如,筆記本電腦、個人計算機和移動終端等)通過互聯(lián)網與云端服務器連接,通過在終端執(zhí)行用戶輸入即能夠以在線的方式從云端服務器獲取相應的候選字符,相應地,用戶可通過從候選字符中選取期望輸入的字符來完成輸入。
由于云端服務器的處理能力比終端設備強大很多倍,所以字庫容量遠遠大于客戶端軟件,相應的輸入準確率也得以提高。
然而,目前的輸入法中,通常僅關注于熱門詞條的更新,即,通過對用戶輸入相應詞語的頻率的統(tǒng)計或者通過對互聯(lián)網中頻繁出現(xiàn)的詞語的統(tǒng)計來產生熱門詞條。這種方式僅改變了詞語的候選次序,但無法有效全面地反映用戶的輸入行為。而且,更新的熱門詞語每次都通過推送的方式傳達到終端用戶,難以有效地應對海量用戶。
發(fā)明內容
本發(fā)明的目的在于提供一種能夠基于終端用戶的輸入行為來實時更新語言模型的云端服務器以及相應的終端。
根據(jù)本發(fā)明的一方面,提供一種用于在云輸入法中更新語言模型的云端服務器,包括:輸入行為收集裝置,用于從多個終端實時收集用戶的輸入行為,其中,所述輸入行為包括用戶在輸入字符時執(zhí)行的字符輸入操作和控制操作以及相應的輸出字符;解析裝置,用于從收集的輸入行為解析出最終輸出字符以及用于直接生成最終輸出字符的有效字符輸入;語言模型更新裝置,用于利用包括最終輸出字符和有效字符輸入的輸入配對來更新設置于云端服務器的語言模型。
所述云端服務器可還包括:輸入行為預處理裝置,用于從收集的輸入行為中排除誤操作輸入行為,其中,誤操作輸入行為是指并非為了產生輸出字符而進行的輸入行為,其中,解析裝置從排除了誤操作輸入行為以外的輸入行為解析出最終輸出字符以及用于直接生成最終輸出字符的有效字符輸入。
在所述云端服務器中,控制操作可包括以下項中的至少一個:用于確認當前字符的確認操作、用于選擇候選字符的選擇操作、用于刪除輸出字符的操作。
在所述云端服務器中,輸入配對以語句為單位,并且,語言模型更新裝置可通過以下處理來更新語言模型:將輸入配對添加到訓練語料,在對作為語句的最終輸出字符執(zhí)行詞語切割和詞性標注之后,基于獲取的詞語和相應的有效字符輸入來更新語言模型。
在所述云端服務器中,對于無法進行詞語切割的詞語,語言模型更新裝置可將其中被審核為新詞的詞語添加到語言模型中。
根據(jù)本發(fā)明的另一方面,提供一種用于在云輸入法中更新語言模型的方法,包括:從多個終端實時收集用戶的輸入行為,其中,所述輸入行為包括用戶在輸入字符時執(zhí)行的字符輸入操作和控制操作以及相應的輸出字符;從收集的輸入行為解析出最終輸出字符以及用于直接生成最終輸出字符的有效字符輸入;利用包括最終輸出字符和有效字符輸入的輸入配對來更新設置于云端服務器的語言模型。
所述方法可還包括:從收集的輸入行為中排除誤操作輸入行為,其中,誤操作輸入行為是指并非為了產生輸出字符而進行的輸入行為,其中,從排除了誤操作輸入行為以外的輸入行為解析出最終輸出字符以及用于直接生成最終輸出字符的有效字符輸入。
在所述方法中,控制操作包括以下項中的至少一個:用于確認當前字符的確認操作、用于選擇候選字符的選擇操作、用于刪除輸出字符的操作。
在所述方法中,輸入配對以語句為單位,并且,更新語言模型的步驟可包括:將輸入配對添加到訓練語料,在對作為語句的最終輸出字符執(zhí)行詞語切割和詞性標注之后,基于獲取的詞語和相應的有效字符輸入來更新語言模型。
所述方法還包括:對于無法進行詞語切割的詞語,將其中被審核為新詞的詞語添加到語言模型中。
根據(jù)本發(fā)明的另一方面,提供一種用于云輸入法的終端,包括:輸入單元,用于接收用戶在輸入字符時執(zhí)行的字符輸入操作和控制操作;收發(fā)單元,用于從云端服務器接收與用戶的字符輸入操作相應的字符;輸出單元,用于輸出從云端服務器接收的字符,其中,收發(fā)單元將用戶的輸入行為實時地發(fā)送到云端服務器,其中,所述輸入行為包括用戶在輸入字符時執(zhí)行的字符輸入操作和控制操作以及相應的輸出字符,并且,設置于云端服務器的語言模型基于從各個終端實時發(fā)送的用戶的輸入行為而更新。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于百度國際科技(深圳)有限公司,未經百度國際科技(深圳)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業(yè)授權和技術合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201310076668.X/2.html,轉載請聲明來源鉆瓜專利網。
- 同類專利
- 專利分類
G06F 電數(shù)字數(shù)據(jù)處理
G06F3-00 用于將所要處理的數(shù)據(jù)轉變成為計算機能夠處理的形式的輸入裝置;用于將數(shù)據(jù)從處理機傳送到輸出設備的輸出裝置,例如,接口裝置
G06F3-01 .用于用戶和計算機之間交互的輸入裝置或輸入和輸出組合裝置
G06F3-05 .在規(guī)定的時間間隔上,利用模擬量取樣的數(shù)字輸入
G06F3-06 .來自記錄載體的數(shù)字輸入,或者到記錄載體上去的數(shù)字輸出
G06F3-09 .到打字機上去的數(shù)字輸出
G06F3-12 .到打印裝置上去的數(shù)字輸出





