[發(fā)明專(zhuān)利]生成用戶詞典的方法和裝置在審
| 申請(qǐng)?zhí)枺?/td> | 201610325791.4 | 申請(qǐng)日: | 2016-05-17 |
| 公開(kāi)(公告)號(hào): | CN107390892A | 公開(kāi)(公告)日: | 2017-11-24 |
| 發(fā)明(設(shè)計(jì))人: | 鄭仲光;孟遙;孫俊 | 申請(qǐng)(專(zhuān)利權(quán))人: | 富士通株式會(huì)社 |
| 主分類(lèi)號(hào): | G06F3/023 | 分類(lèi)號(hào): | G06F3/023;G06F17/27 |
| 代理公司: | 北京集佳知識(shí)產(chǎn)權(quán)代理有限公司11227 | 代理人: | 朱勝,江河清 |
| 地址: | 日本神*** | 國(guó)省代碼: | 暫無(wú)信息 |
| 權(quán)利要求書(shū): | 查看更多 | 說(shuō)明書(shū): | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 生成 用戶 詞典 方法 裝置 | ||
技術(shù)領(lǐng)域
本發(fā)明涉及自然語(yǔ)言處理領(lǐng)域,更具體地涉及一種自動(dòng)生成用戶詞典的方法和裝置。
背景技術(shù)
輸入法(IME)是人機(jī)交互中不可缺少的工具,由于IME的效率直接影響著用戶的工作效率,因此人們提出了很多方法用以提高IME的輸入效率和用戶體驗(yàn)。比如自動(dòng)生成用戶詞典:當(dāng)用戶輸入一個(gè)拼音串“kangbobaqi”之后,由于候選里面沒(méi)有正確結(jié)果“康伯巴奇”,用戶需要調(diào)整候選漢字,調(diào)整輸入之后,當(dāng)用戶再次輸入“kangbobaqi”,便可以得到正確的結(jié)果。這種方法極大的提高的用戶的輸入效率,避免了每次輸入拼音之后都需要調(diào)整的操作。
現(xiàn)有的IME雖然可以根據(jù)用戶的輸入來(lái)生成用戶詞典,但是最大的問(wèn)題是需要用戶完整的輸入拼音串之后調(diào)整漢字候選。用戶的輸入習(xí)慣是不同的,有些用戶習(xí)慣于單字的輸入,比如先輸入“kang”,調(diào)整為“康”并輸入,再輸入“bo”,調(diào)整為“伯”并輸入,從而依次輸入“康伯巴奇”,但是在這種情況下,當(dāng)用戶再次整體輸入拼音“kangbobaqi”的時(shí)候,現(xiàn)有的IME仍無(wú)法得到正確的結(jié)果,即使用戶已經(jīng)輸入過(guò)一次。
因此,希望能夠提供一種可以滿足各種輸入習(xí)慣的用戶,更有效率的生成用戶詞典的方法和裝置。
發(fā)明內(nèi)容
在下文中給出關(guān)于本發(fā)明的簡(jiǎn)要概述,以便提供關(guān)于本發(fā)明的某些方面的基本理解。應(yīng)當(dāng)理解,這個(gè)概述并不是關(guān)于本發(fā)明的窮舉性概述。它并不是意圖確定本發(fā)明的關(guān)鍵或重要部分,也不是意圖限定本發(fā)明的范圍。其目的僅僅是以簡(jiǎn)化的形式給出某些概念,以此作為稍后論述的更詳 細(xì)描述的前序。
本發(fā)明的一個(gè)主要目的在于,提供了一種生成用戶詞典的方法,包括:跟蹤用戶的編輯歷史,編輯歷史包括多個(gè)單元,其中每個(gè)單元存儲(chǔ)用戶輸入的拼音和對(duì)應(yīng)的文字;從編輯歷史還原出詞的列表;計(jì)算每?jī)蓚€(gè)相鄰詞之間的轉(zhuǎn)移概率;根據(jù)所計(jì)算的轉(zhuǎn)移概率提取連續(xù)多個(gè)轉(zhuǎn)移概率均小于預(yù)定閾值的詞作為候選詞串;以及當(dāng)候選詞串的包含至少兩個(gè)詞的子詞串所對(duì)應(yīng)的拼音被再次輸入時(shí),將子詞串作為新詞插入用戶詞典中。
根據(jù)本發(fā)明的一個(gè)方面,提供一種生成用戶詞典的裝置,包括:編輯歷史跟蹤單元,被配置為跟蹤用戶的編輯歷史,編輯歷史包括多個(gè)單元,其中每個(gè)單元存儲(chǔ)用戶輸入的拼音和對(duì)應(yīng)的文字;詞還原單元,被配置為從編輯歷史還原出詞的列表;轉(zhuǎn)移概率計(jì)算單元,被配置為計(jì)算每?jī)蓚€(gè)相鄰詞之間的轉(zhuǎn)移概率;候選詞串確定單元,被配置為根據(jù)所計(jì)算的轉(zhuǎn)移概率提取連續(xù)多個(gè)轉(zhuǎn)移概率均小于預(yù)定閾值的詞作為候選詞串;以及用戶詞典生成單元,被配置為當(dāng)候選詞串的包含至少兩個(gè)詞的子詞串所對(duì)應(yīng)的拼音被再次輸入時(shí),將子詞串作為新詞插入用戶詞典中。
另外,本發(fā)明的實(shí)施例還提供了用于實(shí)現(xiàn)上述方法的計(jì)算機(jī)程序。
此外,本發(fā)明的實(shí)施例還提供了至少計(jì)算機(jī)可讀介質(zhì)形式的計(jì)算機(jī)程序產(chǎn)品,其上記錄有用于實(shí)現(xiàn)上述方法的計(jì)算機(jī)程序代碼。
通過(guò)以下結(jié)合附圖對(duì)本發(fā)明的最佳實(shí)施例的詳細(xì)說(shuō)明,本發(fā)明的這些以及其他優(yōu)點(diǎn)將更加明顯。
附圖說(shuō)明
參照下面結(jié)合附圖對(duì)本發(fā)明實(shí)施例的說(shuō)明,會(huì)更加容易地理解本發(fā)明的以上和其它目的、特點(diǎn)和優(yōu)點(diǎn)。附圖中的部件只是為了示出本發(fā)明的原理。在附圖中,相同的或類(lèi)似的技術(shù)特征或部件將采用相同或類(lèi)似的附圖標(biāo)記來(lái)表示。
圖1示出了用于實(shí)施根據(jù)本發(fā)明的生成用戶詞典的方法的整體系統(tǒng)框架;
圖2示出了根據(jù)本發(fā)明的一個(gè)實(shí)施例的生成用戶詞典的方法200的示例性過(guò)程的流程圖;
圖3a、3b和3c示出了編輯歷史的示例;
圖4示出了跟蹤用戶的編輯歷史的整體流程圖;
圖5示出了詞串的轉(zhuǎn)移概率的分布情況;
圖6是示出圖2中的步驟S208的一種示例性過(guò)程的流程圖;
圖7a和7b示出了拼音索引列表和有向圖構(gòu)成的候選用戶詞典的示例;
圖8是示出根據(jù)本發(fā)明的另一個(gè)實(shí)施例的生成用戶詞典的裝置800的示例性配置的框圖;
圖9是示出圖8中的候選詞串確定單元808的一種示例性配置的框圖;以及
圖10是示出可以用于實(shí)施本發(fā)明的生成用戶詞典的方法和裝置的計(jì)算設(shè)備的示例性結(jié)構(gòu)圖。
具體實(shí)施方式
該專(zhuān)利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專(zhuān)利權(quán)人授權(quán)。該專(zhuān)利全部權(quán)利屬于富士通株式會(huì)社,未經(jīng)富士通株式會(huì)社許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買(mǎi)此專(zhuān)利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201610325791.4/2.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專(zhuān)利網(wǎng)。
- 同類(lèi)專(zhuān)利
- 專(zhuān)利分類(lèi)
G06F 電數(shù)字?jǐn)?shù)據(jù)處理
G06F3-00 用于將所要處理的數(shù)據(jù)轉(zhuǎn)變成為計(jì)算機(jī)能夠處理的形式的輸入裝置;用于將數(shù)據(jù)從處理機(jī)傳送到輸出設(shè)備的輸出裝置,例如,接口裝置
G06F3-01 .用于用戶和計(jì)算機(jī)之間交互的輸入裝置或輸入和輸出組合裝置
G06F3-05 .在規(guī)定的時(shí)間間隔上,利用模擬量取樣的數(shù)字輸入
G06F3-06 .來(lái)自記錄載體的數(shù)字輸入,或者到記錄載體上去的數(shù)字輸出
G06F3-09 .到打字機(jī)上去的數(shù)字輸出
G06F3-12 .到打印裝置上去的數(shù)字輸出
- 一種數(shù)據(jù)庫(kù)讀寫(xiě)分離的方法和裝置
- 一種手機(jī)動(dòng)漫人物及背景創(chuàng)作方法
- 一種通訊綜合測(cè)試終端的測(cè)試方法
- 一種服裝用人體測(cè)量基準(zhǔn)點(diǎn)的獲取方法
- 系統(tǒng)升級(jí)方法及裝置
- 用于虛擬和接口方法調(diào)用的裝置和方法
- 線程狀態(tài)監(jiān)控方法、裝置、計(jì)算機(jī)設(shè)備和存儲(chǔ)介質(zhì)
- 一種JAVA智能卡及其虛擬機(jī)組件優(yōu)化方法
- 檢測(cè)程序中方法耗時(shí)的方法、裝置及存儲(chǔ)介質(zhì)
- 函數(shù)的執(zhí)行方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)





