[發(fā)明專利]一種面向印地語的多語言混合輸入方法及裝置在審

申請?zhí)枺?/td>	201810713058.9	申請日：	2018-06-29
公開（公告）號：	CN108897438A	公開（公告）日：	2018-11-27
發(fā)明（設計）人：	許晏銘;吳曉強	申請（專利權）人：	北京金山安全軟件有限公司
主分類號：	G06F3/023	分類號：	G06F3/023
代理公司：	北京清亦華知識產權代理事務所(普通合伙) 11201	代理人：	宋合成
地址：	100085 北京***	國省代碼：	北京;11
權利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關鍵詞：	拼寫詞匯候選詞多語言混合輸入法界面候選字符輸入詞匯字符序列串列輸入效率選擇操作映射關系語言模型字符形式多語言鍵入展示
鉆瓜網技術展會專利詞庫專利權人專利榜在售專利公布日期熱門專利

【權利要求書】：

1.一種面向印地語的多語言混合輸入方法，其特征在于，包括：

獲取輸入法界面鍵入的當前輸入詞匯的拉丁字符序列；

根據(jù)第一語言模型，獲取所述拉丁字符序列對應的拉丁字符形式的第一候選字符串列表，所述第一語言模型為預先建立的以拉丁字符形式拼寫印地語的語言模型；

根據(jù)預先建立的印地語詞匯的拉丁字符拼寫形式和印地語字符拼寫形式之間的映射關系，獲取目標印地語詞匯列表，所述目標印地語詞匯列表包括：第一候選字符串列表中的拉丁字符拼寫形式的印地語詞匯所對應的印地語字符拼寫形式；

根據(jù)所述第一候選字符串列表和目標印地語詞匯列表，生成包括拉丁字符拼寫形式和印地語字符拼寫形式的詞匯的第一候選詞列表；

在輸入法界面展示所述第一候選詞列表；

獲取對所述第一候選詞列表中的詞匯的選擇操作，將被選中的詞匯作為輸入詞匯進行輸入。

2.根據(jù)權利要求1所述的面向印地語的多語言混合輸入方法，其特征在于，所述根據(jù)第一語言模型，獲取所述拉丁字符序列對應的拉丁字符形式的第一候選字符串列表，包括：

當所述拉丁字符序列為完整的拉丁字符拼寫形式的印地語詞匯時，將所述拉丁字符序列對應的印地語詞匯加入所述第一候選字符串列表；以及

獲取擴展選項，所述擴展選項包括：含有所述拉丁字符序列的拉丁字符拼寫形式的印地語詞匯或者詞匯片段，將所述擴展選項加入第一候選字符串列表。

3.根據(jù)權利要求2所述的面向印地語的多語言混合輸入方法，其特征在于，所述根據(jù)第一語言模型，獲取所述拉丁字符序列對應的拉丁字符形式的第一候選字符串列表，還包括：

當所述第一語言模型中不存在含有所述拉丁字符序列的拉丁字符拼寫形式的印地語詞匯時，獲取與所述拉丁字符序列相似度最高的拉丁字符拼寫形式的印地語詞匯，并將之作為擴展選項加入第一候選字符串列表。

4.根據(jù)權利要求1所述的面向印地語的多語言混合輸入方法，其特征在于，獲取對所述第一候選詞列表中的詞匯的選擇操作，將被選中的詞匯作為輸入詞匯進行輸入之后，還包括：

根據(jù)所述輸入詞匯對應的語言模型，預測所述輸入詞匯的后續(xù)詞匯，并根據(jù)預測結果生成第二候選詞列表；

在輸入法界面展示所述第二候選詞列表；

獲取對所述第二候選詞列表的詞匯的選擇操作，將被選中的詞匯作為下一個輸入詞匯進行輸入。

5.根據(jù)權利要求4所述的面向印地語的多語言混合輸入方法，其特征在于，所述根據(jù)輸入詞匯對應的語言模型，預測所述輸入詞匯的后續(xù)詞匯，并根據(jù)預測結果生成第二候選詞列表，包括：

判斷所述輸入詞匯的拼寫形式是拉丁字符還是印地語字符；

當所述輸入詞匯的拼寫形式是拉丁字符時，根據(jù)第一語言模型預測后續(xù)輸入詞匯；

當所述輸入詞匯的拼寫形式是印地語字符時，根據(jù)第二語言模型預測后續(xù)輸入詞匯，所述第二語言模型為預先建立的以印地語字符形式拼寫印地語的語言模型。

6.根據(jù)權利要求1所述的面向印地語的多語言混合輸入方法，其特征在于，所述根據(jù)第一語言模型，獲取所述拉丁字符序列對應的拉丁字符形式的第一候選字符串列表，所述第一語言模型為預先建立的以拉丁字符形式拼寫印地語的語言模型，其中，

所述第一語言模型的預先建立，包括：

獲取以拉丁字符形式拼寫印地語的語料數(shù)據(jù)，并對所述語料數(shù)據(jù)進行預處理以去除其中的錯誤語料和低頻語料，得到有效語料；

去除所述有效語料數(shù)據(jù)中的冗余部分，得到整理后的語料；

使用整理后的語料構建語言模型。

7.根據(jù)權利要求6所述的面向印地語的多語言混合輸入方法，其特征在于，所述使用整理后的語料構建語言模型，包括：

使用整理后的語料構建N-Gram形式的語言模型，并計算語言模型的參數(shù)，其中，所述語言模型的參數(shù)包括：語言模型中的詞匯，以及N元詞匯排列中，第N個詞匯關于前N-1個詞匯的條件概率，N為正整數(shù)；以及

對所述條件概率的數(shù)據(jù)進行平滑處理，以使所述整理后的語料中未出現(xiàn)的N元詞匯排列對應的條件概率不為零。

下載完整專利技術內容需要扣除積分，VIP會員可以免費下載。

免登錄下載普通用戶下載升級VIP會員，免費下載

該專利技術資料僅供研究查看技術是否侵權等信息，商用須獲得專利權人授權。該專利全部權利屬于北京金山安全軟件有限公司，未經北京金山安全軟件有限公司許可，擅自商用是侵權行為。如果您想購買此專利、獲得商業(yè)授權和技術合作，請聯(lián)系【客服】

本文鏈接：http://www.szxzyx.cn/pat/books/201810713058.9/1.html，轉載請聲明來源鉆瓜專利網。

專利分類

專利文獻下載

說明：

1、專利原文基于中國國家知識產權局專利說明書；

2、支持發(fā)明專利、實用新型專利、外觀設計專利（升級中）；

3、專利數(shù)據(jù)每周兩次同步更新，支持Adobe PDF格式；

4、內容包括專利技術的結構示意圖、流程工藝圖或技術構造圖；

5、已全新升級為極速版,下載速度顯著提升！歡迎使用！

請您登陸后，進行下載，點擊【登陸】【注冊】