[發(fā)明專利]一種面向印地語的多語言混合輸入方法及裝置在審
| 申請?zhí)枺?/td> | 201810713058.9 | 申請日: | 2018-06-29 |
| 公開(公告)號: | CN108897438A | 公開(公告)日: | 2018-11-27 |
| 發(fā)明(設計)人: | 許晏銘;吳曉強 | 申請(專利權)人: | 北京金山安全軟件有限公司 |
| 主分類號: | G06F3/023 | 分類號: | G06F3/023 |
| 代理公司: | 北京清亦華知識產權代理事務所(普通合伙) 11201 | 代理人: | 宋合成 |
| 地址: | 100085 北京*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 拼寫 詞匯 候選詞 多語言混合 輸入法界面 候選字符 輸入詞匯 字符序列 串列 輸入效率 選擇操作 映射關系 語言模型 字符形式 多語言 鍵入 展示 | ||
1.一種面向印地語的多語言混合輸入方法,其特征在于,包括:
獲取輸入法界面鍵入的當前輸入詞匯的拉丁字符序列;
根據(jù)第一語言模型,獲取所述拉丁字符序列對應的拉丁字符形式的第一候選字符串列表,所述第一語言模型為預先建立的以拉丁字符形式拼寫印地語的語言模型;
根據(jù)預先建立的印地語詞匯的拉丁字符拼寫形式和印地語字符拼寫形式之間的映射關系,獲取目標印地語詞匯列表,所述目標印地語詞匯列表包括:第一候選字符串列表中的拉丁字符拼寫形式的印地語詞匯所對應的印地語字符拼寫形式;
根據(jù)所述第一候選字符串列表和目標印地語詞匯列表,生成包括拉丁字符拼寫形式和印地語字符拼寫形式的詞匯的第一候選詞列表;
在輸入法界面展示所述第一候選詞列表;
獲取對所述第一候選詞列表中的詞匯的選擇操作,將被選中的詞匯作為輸入詞匯進行輸入。
2.根據(jù)權利要求1所述的面向印地語的多語言混合輸入方法,其特征在于,所述根據(jù)第一語言模型,獲取所述拉丁字符序列對應的拉丁字符形式的第一候選字符串列表,包括:
當所述拉丁字符序列為完整的拉丁字符拼寫形式的印地語詞匯時,將所述拉丁字符序列對應的印地語詞匯加入所述第一候選字符串列表;以及
獲取擴展選項,所述擴展選項包括:含有所述拉丁字符序列的拉丁字符拼寫形式的印地語詞匯或者詞匯片段,將所述擴展選項加入第一候選字符串列表。
3.根據(jù)權利要求2所述的面向印地語的多語言混合輸入方法,其特征在于,所述根據(jù)第一語言模型,獲取所述拉丁字符序列對應的拉丁字符形式的第一候選字符串列表,還包括:
當所述第一語言模型中不存在含有所述拉丁字符序列的拉丁字符拼寫形式的印地語詞匯時,獲取與所述拉丁字符序列相似度最高的拉丁字符拼寫形式的印地語詞匯,并將之作為擴展選項加入第一候選字符串列表。
4.根據(jù)權利要求1所述的面向印地語的多語言混合輸入方法,其特征在于,獲取對所述第一候選詞列表中的詞匯的選擇操作,將被選中的詞匯作為輸入詞匯進行輸入之后,還包括:
根據(jù)所述輸入詞匯對應的語言模型,預測所述輸入詞匯的后續(xù)詞匯,并根據(jù)預測結果生成第二候選詞列表;
在輸入法界面展示所述第二候選詞列表;
獲取對所述第二候選詞列表的詞匯的選擇操作,將被選中的詞匯作為下一個輸入詞匯進行輸入。
5.根據(jù)權利要求4所述的面向印地語的多語言混合輸入方法,其特征在于,所述根據(jù)輸入詞匯對應的語言模型,預測所述輸入詞匯的后續(xù)詞匯,并根據(jù)預測結果生成第二候選詞列表,包括:
判斷所述輸入詞匯的拼寫形式是拉丁字符還是印地語字符;
當所述輸入詞匯的拼寫形式是拉丁字符時,根據(jù)第一語言模型預測后續(xù)輸入詞匯;
當所述輸入詞匯的拼寫形式是印地語字符時,根據(jù)第二語言模型預測后續(xù)輸入詞匯,所述第二語言模型為預先建立的以印地語字符形式拼寫印地語的語言模型。
6.根據(jù)權利要求1所述的面向印地語的多語言混合輸入方法,其特征在于,所述根據(jù)第一語言模型,獲取所述拉丁字符序列對應的拉丁字符形式的第一候選字符串列表,所述第一語言模型為預先建立的以拉丁字符形式拼寫印地語的語言模型,其中,
所述第一語言模型的預先建立,包括:
獲取以拉丁字符形式拼寫印地語的語料數(shù)據(jù),并對所述語料數(shù)據(jù)進行預處理以去除其中的錯誤語料和低頻語料,得到有效語料;
去除所述有效語料數(shù)據(jù)中的冗余部分,得到整理后的語料;
使用整理后的語料構建語言模型。
7.根據(jù)權利要求6所述的面向印地語的多語言混合輸入方法,其特征在于,所述使用整理后的語料構建語言模型,包括:
使用整理后的語料構建N-Gram形式的語言模型,并計算語言模型的參數(shù),其中,所述語言模型的參數(shù)包括:語言模型中的詞匯,以及N元詞匯排列中,第N個詞匯關于前N-1個詞匯的條件概率,N為正整數(shù);以及
對所述條件概率的數(shù)據(jù)進行平滑處理,以使所述整理后的語料中未出現(xiàn)的N元詞匯排列對應的條件概率不為零。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京金山安全軟件有限公司,未經北京金山安全軟件有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業(yè)授權和技術合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810713058.9/1.html,轉載請聲明來源鉆瓜專利網。
- 同類專利
- 專利分類
G06F 電數(shù)字數(shù)據(jù)處理
G06F3-00 用于將所要處理的數(shù)據(jù)轉變成為計算機能夠處理的形式的輸入裝置;用于將數(shù)據(jù)從處理機傳送到輸出設備的輸出裝置,例如,接口裝置
G06F3-01 .用于用戶和計算機之間交互的輸入裝置或輸入和輸出組合裝置
G06F3-05 .在規(guī)定的時間間隔上,利用模擬量取樣的數(shù)字輸入
G06F3-06 .來自記錄載體的數(shù)字輸入,或者到記錄載體上去的數(shù)字輸出
G06F3-09 .到打字機上去的數(shù)字輸出
G06F3-12 .到打印裝置上去的數(shù)字輸出





