[發(fā)明專利]一種更新輸入法詞庫的方法及系統(tǒng)有效
| 申請?zhí)枺?/td> | 201110253506.X | 申請日: | 2011-08-30 |
| 公開(公告)號: | CN102955825A | 公開(公告)日: | 2013-03-06 |
| 發(fā)明(設(shè)計)人: | 查文 | 申請(專利權(quán))人: | 北京搜狗科技發(fā)展有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30;G06F3/023 |
| 代理公司: | 北京集佳知識產(chǎn)權(quán)代理有限公司 11227 | 代理人: | 逯長明;王寶筠 |
| 地址: | 100084 北京市海淀區(qū)中關(guān)*** | 國省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 更新 輸入法 詞庫 方法 系統(tǒng) | ||
技術(shù)領(lǐng)域
本發(fā)明涉及輸入法技術(shù)領(lǐng)域,特別是涉及一種更新輸入法詞庫的方法及系統(tǒng)。
背景技術(shù)
輸入法系統(tǒng)作為人機(jī)對話的接口,提供了將各種文字輸入計算機(jī)或其他設(shè)備(如手機(jī))的編碼方法。換言之,對于需要編碼才能完成輸入的文字,如果想要將某些文字內(nèi)容輸入到計算機(jī)中,則需要借助于輸入法系統(tǒng)才能完成。因此,輸入法系統(tǒng)在人機(jī)交互過程中其中舉足輕重的作用。
輸入法系統(tǒng)通常都具有自己的詞庫,對于中文、日文等文字而言,輸入法的詞庫中保存了常用詞條以及對應(yīng)的編碼字符串(如拼音等),當(dāng)用戶通過鍵盤等輸入設(shè)備輸入了某編碼字符串之后,輸入法系統(tǒng)就可以通過查詢詞庫,將該編碼字符串對應(yīng)的詞條展現(xiàn)給用戶。當(dāng)然,由于同音字詞的存在,同一編碼字符串往往對應(yīng)著多個詞條,但各個詞條的使用頻率可能各有不同,因此,詞庫中通常還保存有各個詞條對應(yīng)的詞頻。這樣,當(dāng)用戶輸入一個編碼字符串之后,如果發(fā)現(xiàn)對應(yīng)著多個詞條,輸入法系統(tǒng)就可以依據(jù)詞頻由大到小的順序,將各個詞條展現(xiàn)給用戶。
對于輸入法系統(tǒng)而言,詞庫的質(zhì)量是衡量其性能的很重要的一個方面,一個高質(zhì)量的詞庫能夠提高首選詞的命中率,進(jìn)而提高字詞輸入的速度。目前的主流輸入法則是通過統(tǒng)計搜索引擎中收錄的頁面中文字的出現(xiàn)概率來得到。具體實(shí)現(xiàn)時,首先由服務(wù)器端通過網(wǎng)絡(luò)爬蟲抓取頁面,然后做分詞處理,再將其中的有效部分制作成詞庫,只有當(dāng)服務(wù)器端生成了新版本的詞庫,客戶端的輸入法詞庫才會得到更新。而這一周期會比較長,往往需要幾個月的時間,在實(shí)際應(yīng)用中,涉及更多流程步驟,遷延的時期更長。每次作詞庫更新時,都需要重復(fù)該過程,因此,詞庫的更新周期會比較長。
現(xiàn)有技術(shù)中,針對新詞,通常可以通過詞庫增量的方式,實(shí)現(xiàn)較短的更新周期。例如,有些輸入法系統(tǒng)可以每天或者用戶每次開機(jī)時,將新詞添加到輸入法詞庫中。但是,在實(shí)際應(yīng)用中,還有些詞條具有以下特征:這些詞條在系統(tǒng)詞庫中存在,但相對于同音下的其他詞條而言,平均詞頻可能比較低,因此,當(dāng)用戶輸入其編碼字符串時,該詞條在候選項(xiàng)中的排序可能比較靠后;但是,這些詞條卻可能存在階段性的使用頻率增高的現(xiàn)象(通常將這種詞條稱為熱詞),此時,如果仍然按照當(dāng)前詞庫給出候選項(xiàng),則會影響到輸入速度。如果等待服務(wù)器端生成新的詞庫,則長的更新周期可能會導(dǎo)致該詞條的熱度可能已經(jīng)過了,即使在新的詞庫中,該詞條的詞頻等發(fā)生了變化,也已經(jīng)失去意義了。
發(fā)明內(nèi)容
本發(fā)明提供一種更新輸入法詞庫的方法及系統(tǒng),能夠針對熱詞實(shí)現(xiàn)較短的詞庫更新周期,有利于提高輸入法系統(tǒng)的性能。
本發(fā)明提供了如下方案:
一種更新輸入法詞庫的方法,包括:
獲取詞條更新信息;
根據(jù)所述詞條更新信息對輸入法詞庫中已有詞條的屬性進(jìn)行更新;
依據(jù)更新后的詞條屬性提供候選項(xiàng)。
優(yōu)選地,所述詞條更新信息包括至少一個已有詞條的詞頻和/或多元關(guān)系的更新指示;
所述根據(jù)詞條更新信息對輸入法詞庫中已有詞條的屬性進(jìn)行更新包括:對輸入法詞庫中已有詞條的詞頻和/或多元關(guān)系進(jìn)行更新。
其中,所述對已有詞條的多元關(guān)系進(jìn)行更新包括:修改已有多元關(guān)系的強(qiáng)度、增加詞條之間新的多元關(guān)系、或刪除詞條之間已有的多元關(guān)系。
優(yōu)選地,所述詞條更新信息包括至少一個已有詞條的熱詞標(biāo)簽更新指示;
所述根據(jù)詞條更新信息對輸入法詞庫中已有詞條的屬性進(jìn)行更新包括:為輸入法詞庫中的已有詞條或已有詞條的多元關(guān)系添加熱詞標(biāo)簽;
所述依據(jù)更新后的詞條屬性提供候選項(xiàng)包括:在展現(xiàn)候選項(xiàng)時,將帶有熱詞標(biāo)簽的詞條或多元關(guān)系進(jìn)行優(yōu)先展現(xiàn)。
其中,所述根據(jù)詞條更新信息對輸入法詞庫中已有詞條的屬性進(jìn)行更新包括:為輸入法詞庫中的已有詞條或已有詞條的多元關(guān)系刪除熱詞標(biāo)簽。
優(yōu)選地,所述方法還包括:
獲取所述詞條更新信息的有效時間;
當(dāng)?shù)竭_(dá)所述有效時間時,將所述輸入法詞庫中已有詞條的屬性恢復(fù)到更新前的狀態(tài)。
優(yōu)選地,所述獲取詞條更新信息包括:從服務(wù)器接收所述詞條更新信息。
優(yōu)選地,所述獲取詞條更新信息包括:從預(yù)置的熱詞相關(guān)信息中,獲取所述詞條更新信息;所述熱詞相關(guān)信息包括已有詞條的屬性更新指示及觸發(fā)條件;
所述根據(jù)詞條更新信息對輸入法詞庫中已有詞條的屬性進(jìn)行更新包括:在滿足所述觸發(fā)條件時,根據(jù)所述更新指示對已有詞條的屬性進(jìn)行更新。
一種更新輸入法詞庫的系統(tǒng),包括:
詞條更新信息獲取單元,用于獲取詞條更新信息;
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于北京搜狗科技發(fā)展有限公司,未經(jīng)北京搜狗科技發(fā)展有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201110253506.X/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。





