[發(fā)明專利]拼音文字詞庫構建方法和裝置及輸入方法和系統(tǒng)在審
| 申請?zhí)枺?/td> | 201310713785.2 | 申請日: | 2013-12-20 |
| 公開(公告)號: | CN104731766A | 公開(公告)日: | 2015-06-24 |
| 發(fā)明(設計)人: | 張巖 | 申請(專利權)人: | 淘寶(中國)軟件有限公司 |
| 主分類號: | G06F17/27 | 分類號: | G06F17/27;G06F17/30;G06F3/0482 |
| 代理公司: | 北京新知遠方知識產(chǎn)權代理事務所(普通合伙) 11397 | 代理人: | 張艷 |
| 地址: | 311100 浙*** | 國省代碼: | 浙江;33 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 拼音文字 詞庫 構建 方法 裝置 輸入 系統(tǒng) | ||
技術領域
本發(fā)明涉及電子設備領域,尤其是拼音文字詞庫構建方法和裝置,以及拼音文字輸入方法及系統(tǒng)。
背景技術
目前,隨著計算機、平板電腦、智能手機的廣泛使用,除了鍵盤輸入之外,也出現(xiàn)了其他輸入法,比如語音輸入。但是,鍵盤輸入法仍然是最常用的輸入方式。應當指出,本申請文件中提及的鍵盤輸入法不僅包含利用物理鍵盤的輸入法,還包括利用虛擬鍵盤的輸入法。
目前,通行的計算機拼音文字鍵盤均為逐字母輸入法,是由打字機鍵盤直接照搬過來,在拼音文字輸入時存在擊鍵次數(shù)過多,輸入速度慢,出錯率高。并且由于輸入完全依賴單詞的拼寫形式,因此盲輸時困難很大。拼音文字是一種表音文字,逐字母輸入發(fā)使拼音語言的這一特征優(yōu)勢無法發(fā)揮出來,使計算機拼音文字輸入始終處于低效狀態(tài),與計算機技術與高速信息處理技術的飛速發(fā)展形成鮮明的對比和矛盾。應當指出,在本申請文件中,拼音文字指的是基于字母的各種語言文字,單詞由包含于一定數(shù)量字母集合中的若干字母排列組合而構成,不同詞之間用比如空格等分詞符分隔開,比如英文、德文、法文等,但并不限于這幾種語言。
為了提高輸入速度,現(xiàn)在已經(jīng)出現(xiàn)了很多拼音文字輸入法,在用戶輸入一個單詞的前若干個字母后,可以依據(jù)詞庫進行智能提示,用戶可以據(jù)此選擇目標單詞,從而用戶可以減少輸入字母,一定程度上提高輸入速度。以英文輸入為例,比如用戶輸入ea兩個首字母,則輸入法可自動提示each、earth、ear、early等以ea開頭的英文詞匯,用戶繼續(xù)輸入ear,則更新為提示earth、ear、early等以ear開頭的英文詞匯。在此期間,用戶可以通過鼠標點擊選擇或用每個提示詞匯前對應的數(shù)字代碼來選擇相應詞匯。
但是,仍然期望能進一步提高輸入速度。對于輸入速度的提高而言,詞庫構建是非常關鍵的因素,但目前各種詞庫均限于單個單詞的詞庫。
發(fā)明內容
本發(fā)明針對上述問題,提出了一種拼音文字詞庫構建方法和裝置以及拼音文字輸入方法和系統(tǒng),其能進一步提高輸入速度。
在一個方面,本發(fā)明提供了一種拼音文字詞庫構建方法,包括以下步驟:動態(tài)地獲取用戶輸入的字符串;分析所述字符串,確定其中由分詞符分隔的字符串片段,將其視為拼音文字單詞并記錄下來;記錄其中詞庫中不存在的拼音文字單詞出現(xiàn)的次數(shù);以及如果所述拼音文字單詞出現(xiàn)的次數(shù)已達到閾值,則將所述拼音文字單詞存儲于詞庫中;分析所述拼音文字單詞之間的關聯(lián)關系,即單詞出現(xiàn)的前后關系,并將其前后關系記錄下來;記錄所述拼音文字單詞之間的關聯(lián)關系出現(xiàn)的次數(shù);以及如果所述關聯(lián)關系出現(xiàn)的次數(shù)已達到閾值,則將所述單詞之間的關聯(lián)關系存儲于詞庫中。
在另一個方面,本發(fā)明提供了一種拼音文字詞庫構建裝置,包括:字符串獲取模塊,用于動態(tài)地獲取用戶輸入的字符串;分析記錄模塊,用于分析所述字符串,確定其中由分詞符分隔的字符串片段,將其視為拼音文字單詞并記錄下來;其還用于分析所述拼音文字單詞之間的關聯(lián)關系,即單詞出現(xiàn)的前后關系,并將其前后關系記錄下來;詞庫,用于存儲單詞以及單詞之間的關聯(lián)關系;以及存儲模塊,用于記錄其中詞庫中不存在的拼音文字單詞出現(xiàn)的次數(shù),并且如果所述拼音文字單詞出現(xiàn)的次數(shù)已達到閾值,則將所述拼音文字單詞存儲于詞庫中;以及用于記錄所述拼音文字單詞之間的關聯(lián)關系出現(xiàn)的次數(shù),并且如果所述關聯(lián)關系出現(xiàn)的次數(shù)已達到閾值時,將所述單詞之間的關聯(lián)關系存儲于詞庫中。
在又一個方面,本發(fā)明提供了一種拼音文字輸入方法,其包括以下步驟:接收用戶輸入;顯示詞庫中與用戶輸入相匹配的字符串,供用戶從中選擇最終輸入字符串;其中,所述字符串包括單詞以及具有關聯(lián)關系的單詞組合。
在再一個方面,本發(fā)明提供了一種拼音文字輸入系統(tǒng),其包括:用戶接口控制模塊,用于接收用戶輸入;詞庫,用于存儲單詞和單詞之間的關聯(lián)關系;顯示模塊,用于顯示輸入界面;以及輸入法引擎,用于根據(jù)用戶輸入的拼音文字字符到詞庫中搜索匹配的字符串,并將匹配的字符串顯示于顯示模塊上,其中所述字符串包括單詞以及具有關聯(lián)關系的單詞組合。
相比現(xiàn)有的拼音文字詞庫構建方法和裝置以及拼音文字輸入法和系統(tǒng),采用本發(fā)明能夠大幅提高輸入速度。
附圖說明
下面將參照附圖描述本發(fā)明的具體實施例,其中:
圖1示出了根據(jù)本發(fā)明實施例的拼音文字詞庫構建方法的流程圖;
圖2示出了根據(jù)本發(fā)明實施例的拼音文字詞庫構建裝置的結構示意圖;
圖3示出了根據(jù)本發(fā)明實施例的拼音文字輸入方法的流程圖;并且
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于淘寶(中國)軟件有限公司;,未經(jīng)淘寶(中國)軟件有限公司;許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業(yè)授權和技術合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201310713785.2/2.html,轉載請聲明來源鉆瓜專利網(wǎng)。





