[發(fā)明專利]一種輔助詞庫(kù)的生成方法和裝置有效
| 申請(qǐng)?zhí)枺?/td> | 200710304280.5 | 申請(qǐng)日: | 2007-12-26 |
| 公開(公告)號(hào): | CN101470732A | 公開(公告)日: | 2009-07-01 |
| 發(fā)明(設(shè)計(jì))人: | 張軍 | 申請(qǐng)(專利權(quán))人: | 北京搜狗科技發(fā)展有限公司 |
| 主分類號(hào): | G06F17/30 | 分類號(hào): | G06F17/30 |
| 代理公司: | 北京集佳知識(shí)產(chǎn)權(quán)代理有限公司 | 代理人: | 蘇培華;逯長(zhǎng)明 |
| 地址: | 100084北京市海淀區(qū)中關(guān)*** | 國(guó)省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 輔助 詞庫(kù) 生成 方法 裝置 | ||
技術(shù)領(lǐng)域
本發(fā)明涉及計(jì)算機(jī)字符信息的輸入領(lǐng)域,特別是涉及一種用于字符輸入的輔助詞庫(kù)的生成方法和裝置。?
背景技術(shù)
在現(xiàn)代的計(jì)算機(jī)應(yīng)用中,漢字輸入法已經(jīng)成為中文用戶與計(jì)算機(jī)交互的重要手段。漢字輸入法技術(shù)需要將用戶的一連串鍵盤按鍵翻譯成用戶最可能想要的漢字串。大部分漢字輸入方法的規(guī)則下,按鍵串到漢字串并不是一一對(duì)應(yīng)的,特別是被廣泛使用的拼音輸入法,相同的按鍵串往往對(duì)應(yīng)著多種可能的詞匯、短語或者句子。要提高用戶的輸入效率,漢字輸入法就需要帶有一個(gè)“詞庫(kù)”,詞庫(kù)中含有用戶最可能會(huì)使用的漢字、詞語和短句。?
但是,目前輸入法的詞庫(kù)一般只能夠覆蓋人們使用的詞匯的一部分,通常主要包括一些人們普遍的常用詞匯,還有一部分詞匯輸入法詞庫(kù)是不可能全部包括進(jìn)來的。因?yàn)楝F(xiàn)有的輸入法詞庫(kù)都是通用的,針對(duì)的是所有用戶,如果把所有用戶用的詞匯都加入進(jìn)來,那么輸入法的詞庫(kù)容量將在數(shù)百萬的量級(jí)。詞庫(kù)過大,同音字過多,候選項(xiàng)增加,不需要使用這些詞的用戶會(huì)受到干擾,并且,這樣一個(gè)超大的詞庫(kù)勢(shì)必大幅占用硬盤、CPU、內(nèi)存等計(jì)算設(shè)備資源,對(duì)個(gè)人電腦來說是不能接受的。?
其次,由于漢語的靈活性,各種詞語豐富而多樣,每個(gè)人都有自己偏好使用的詞匯集合,即使同樣一個(gè)詞匯對(duì)于不同的人而言,其使用詞頻都可能是不同的。?
例如,每個(gè)人在使用輸入法時(shí)除了輸入許多常用詞匯之外(例如“現(xiàn)在”、“時(shí)間”、“多少”等),還會(huì)輸入一小部分人用的詞匯,例如:一些游戲名詞“艾澤拉斯”“德魯伊”,電影名稱“云水謠”等等。這些詞匯對(duì)非常小的群體來說會(huì)經(jīng)常輸入,例如:魔獸世界玩家,電影評(píng)論家等等;但是這些詞匯在總體用戶中的使用比例比較低,為了保證詞庫(kù)的通用性,現(xiàn)有模式下面向所有用戶的輸入法詞庫(kù)是不可能把這些詞匯全部包括進(jìn)去的。?
上述現(xiàn)有技術(shù)的缺陷,導(dǎo)致用戶輸入上述這些小群體的常用詞匯時(shí)的首選詞準(zhǔn)確率非常低,嚴(yán)重影響用戶的使用體驗(yàn)以及其思想的表達(dá)。?
總之,需要本領(lǐng)域技術(shù)人員迫切解決的一個(gè)技術(shù)問題就是:如何能夠創(chuàng)造性的提出一種獲取某個(gè)用戶群體常用的個(gè)性化詞匯,并進(jìn)一步能夠根據(jù)使用者的具體情況來提供個(gè)性化的輔助詞庫(kù),以提高用戶的輸入效率。?
發(fā)明內(nèi)容
本發(fā)明所要解決的技術(shù)問題是提供一種輔助詞庫(kù)的生成方法和裝置,能夠簡(jiǎn)單方便地獲取某個(gè)用戶群體常用的個(gè)性化詞匯,當(dāng)用戶采用包括有相應(yīng)群體個(gè)性化詞匯的輔助詞庫(kù)進(jìn)行輸入時(shí),可以大大提高其輸入相關(guān)字詞的效率。?
為了解決上述問題,本發(fā)明公開了一種輔助詞庫(kù)的生成方法,可以包括:獲取一特定用戶群體的歷史輸入字詞及其詞頻;分析所述歷史輸入字詞及其詞頻,獲取符合預(yù)置條件的、屬于該特定用戶群體的特色字詞及其詞頻;生成針對(duì)該特定用戶群體的輔助詞庫(kù)。?
優(yōu)選的,所述歷史輸入字詞及其詞頻的獲取步驟可以包括:通過匯集一特定用戶群體的個(gè)人詞庫(kù)而獲得該特定用戶群體的歷史輸入字詞及其詞頻。?
優(yōu)選的,所述歷史輸入字詞及其詞頻的獲取步驟可以包括:通過針對(duì)該特定用戶群體的文字素材進(jìn)行分詞統(tǒng)計(jì)而獲得;或者,通過該特定用戶群體的用戶手動(dòng)添加相應(yīng)的字詞及其詞頻而獲得。?
優(yōu)選的,通過以下方式匯集一特定用戶群體的個(gè)人詞庫(kù):收集多個(gè)輸入法客戶端用戶的個(gè)人詞庫(kù),并記錄用戶與其個(gè)人詞庫(kù)的對(duì)應(yīng)關(guān)系;所述個(gè)人詞庫(kù)包括字詞及詞頻;針對(duì)各用戶的個(gè)人詞庫(kù),計(jì)算得到該用戶的特征參數(shù);計(jì)算各用戶特征參數(shù)之間的相似度,完成對(duì)各個(gè)用戶的聚類,進(jìn)而獲取所需的個(gè)人詞庫(kù)。?
優(yōu)選的,也可以通過以下方式匯集一特定用戶群體的個(gè)人詞庫(kù):收集多個(gè)輸入法客戶端用戶的個(gè)人詞庫(kù);所述個(gè)人詞庫(kù)包括字詞及詞頻;針對(duì)各用戶的個(gè)人詞庫(kù),計(jì)算得到該個(gè)人詞庫(kù)的特征參數(shù);計(jì)算各詞庫(kù)特征參數(shù)之間的相似度,完成對(duì)各個(gè)詞庫(kù)的聚類,進(jìn)而獲取所需的個(gè)人詞庫(kù)。?
優(yōu)選的,所述預(yù)置條件包括:目標(biāo)字詞在該特定用戶群體的歷史語料中的詞頻高于預(yù)設(shè)閾值,但是在通用詞庫(kù)中的詞頻小于預(yù)設(shè)閾值。?
優(yōu)選的,所述的方法還可以包括:接受用戶的下載請(qǐng)求,向用戶發(fā)布相應(yīng)特定用戶群體的輔助詞庫(kù);或者,當(dāng)用戶登錄一網(wǎng)絡(luò)空間時(shí),該網(wǎng)絡(luò)空間向用戶發(fā)布所述生成的輔助詞庫(kù);所述網(wǎng)絡(luò)空間指向一特定用戶群體。?
優(yōu)選的,所述的方法還可以包括:向通過個(gè)人詞庫(kù)聚類得到的特定用戶群體發(fā)布所述生成的針對(duì)該特定用戶群體的輔助詞庫(kù)。?
依據(jù)本發(fā)明的另一優(yōu)選實(shí)施例,還公開了一種輔助詞庫(kù)的生成裝置,可以包括:?
歷史信息獲取模塊,用于獲取一特定用戶群體的歷史輸入字詞及其詞頻;?
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于北京搜狗科技發(fā)展有限公司,未經(jīng)北京搜狗科技發(fā)展有限公司許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/200710304280.5/2.html,轉(zhuǎn)載請(qǐng)聲明來源鉆瓜專利網(wǎng)。
- 上一篇:數(shù)據(jù)塊副本數(shù)量調(diào)整方法及分布式文件系統(tǒng)
- 下一篇:CPU資源調(diào)度方法及虛擬機(jī)監(jiān)視器、虛擬機(jī)系統(tǒng)
- 同類專利
- 專利分類
G06F 電數(shù)字?jǐn)?shù)據(jù)處理
G06F17-00 特別適用于特定功能的數(shù)字計(jì)算設(shè)備或數(shù)據(jù)處理設(shè)備或數(shù)據(jù)處理方法
G06F17-10 .復(fù)雜數(shù)學(xué)運(yùn)算的
G06F17-20 .處理自然語言數(shù)據(jù)的
G06F17-30 .信息檢索;及其數(shù)據(jù)庫(kù)結(jié)構(gòu)
G06F17-40 .數(shù)據(jù)的獲取和記錄
G06F17-50 .計(jì)算機(jī)輔助設(shè)計(jì)
- 一種數(shù)據(jù)庫(kù)讀寫分離的方法和裝置
- 一種手機(jī)動(dòng)漫人物及背景創(chuàng)作方法
- 一種通訊綜合測(cè)試終端的測(cè)試方法
- 一種服裝用人體測(cè)量基準(zhǔn)點(diǎn)的獲取方法
- 系統(tǒng)升級(jí)方法及裝置
- 用于虛擬和接口方法調(diào)用的裝置和方法
- 線程狀態(tài)監(jiān)控方法、裝置、計(jì)算機(jī)設(shè)備和存儲(chǔ)介質(zhì)
- 一種JAVA智能卡及其虛擬機(jī)組件優(yōu)化方法
- 檢測(cè)程序中方法耗時(shí)的方法、裝置及存儲(chǔ)介質(zhì)
- 函數(shù)的執(zhí)行方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)





