[發明專利]一種輔助詞庫的生成方法和裝置有效

申請號：	200710304280.5	申請日：	2007-12-26
公開（公告）號：	CN101470732A	公開（公告）日：	2009-07-01
發明（設計）人：	張軍	申請（專利權）人：	北京搜狗科技發展有限公司
主分類號：	G06F17/30	分類號：	G06F17/30
代理公司：	北京集佳知識產權代理有限公司	代理人：	蘇培華;逯長明
地址：	100084北京市海淀區中關***	國省代碼：	北京;11
權利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關鍵詞：	一種輔助詞庫生成方法裝置
鉆瓜網技術展會專利詞庫專利權人專利榜在售專利公布日期熱門專利

【權利要求書】：

1.一種輔助詞庫的生成方法，其特征在于，包括：

獲取一特定用戶群體的歷史輸入字詞及其詞頻；

分析所述歷史輸入字詞及其詞頻，獲取符合預置條件的、屬于該特定用戶群體的特色字詞及其詞頻；

生成針對該特定用戶群體的輔助詞庫。

2.如權利要求1所述的方法，其特征在于，所述歷史輸入字詞及其詞頻的獲取步驟包括：

通過匯集一特定用戶群體的個人詞庫而獲得該特定用戶群體的歷史輸入字詞及其詞頻。

3.如權利要求1或2所述的方法，其特征在于，所述歷史輸入字詞及其詞頻的獲取步驟包括：

通過針對該特定用戶群體的文字素材進行分詞統計而獲得；

或者，通過該特定用戶群體的用戶手動添加相應的字詞及其詞頻而獲得。

4.如權利要求2所述的方法，其特征在于，通過以下方式匯集一特定用戶群體的個人詞庫：

收集多個輸入法客戶端用戶的個人詞庫，并記錄用戶與其個人詞庫的對應關系；所述個人詞庫包括字詞及詞頻；

針對各用戶的個人詞庫，計算得到該用戶的特征參數；

計算各用戶特征參數之間的相似度，完成對各個用戶的聚類，進而獲取所需的個人詞庫。

5.如權利要求2所述的方法，其特征在于，通過以下方式匯集一特定用戶群體的個人詞庫：

收集多個輸入法客戶端用戶的個人詞庫；所述個人詞庫包括字詞及詞頻；

針對各用戶的個人詞庫，計算得到該個人詞庫的特征參數；

計算各詞庫特征參數之間的相似度，完成對各個詞庫的聚類，進而獲取所需的個人詞庫。

6.如權利要求1或2所述的方法，其特征在于，所述預置條件包括：

目標字詞在該特定用戶群體的歷史語料中的詞頻高于預設閾值，但是在通用詞庫中的詞頻小于預設閾值。

7.如權利要求1所述的方法，其特征在于，還包括：

接受用戶的下載請求，向用戶發布相應特定用戶群體的輔助詞庫；

或者，當用戶登錄一網絡空間時，該網絡空間向用戶發布所述生成的輔助詞庫；所述網絡空間指向一特定用戶群體。

8.如權利要求4或5所述的方法，其特征在于，還包括：

向通過個人詞庫聚類得到的特定用戶群體發布所述生成的針對該特定用戶群體的輔助詞庫。

9.一種輔助詞庫的生成裝置，其特征在于，包括：

歷史信息獲取模塊，用于獲取一特定用戶群體的歷史輸入字詞及其詞頻；

分析模塊，用于分析所述歷史輸入字詞及其詞頻，獲取符合預置條件的、屬于該特定用戶群體的特色字詞及其詞頻；

詞庫生成模塊，用于生成針對該特定用戶群體的輔助詞庫。

10.如權利要求9所述的裝置，其特征在于，

所述歷史信息獲取模塊通過匯集一特定用戶群體的個人詞庫而獲得該特定用戶群體的歷史輸入字詞及其詞頻。

11.如權利要求9或10所述的裝置，其特征在于，

所述歷史信息獲取模塊通過針對該特定用戶群體的文字素材進行分詞統計而獲得；

或者，所述歷史信息獲取模塊通過該特定用戶群體的用戶手動添加相應的字詞及其詞頻而獲得。

12.如權利要求10所述的裝置，其特征在于，所述歷史信息獲取模塊進一步包括：

個人詞庫收集子模塊，用于收集多個輸入法客戶端用戶的個人詞庫；所述個人詞庫包括字詞及詞頻；

特征參數計算子模塊，用于針對各用戶的個人詞庫，計算得到該個人詞庫的特征參數；

群體聚類子模塊，用于計算各詞庫特征參數之間的相似度，完成對各個詞庫的聚類，進而獲取所需的個人詞庫。

下載完整專利技術內容需要扣除積分，VIP會員可以免費下載。

免登錄下載普通用戶下載升級VIP會員，免費下載

該專利技術資料僅供研究查看技術是否侵權等信息，商用須獲得專利權人授權。該專利全部權利屬于北京搜狗科技發展有限公司，未經北京搜狗科技發展有限公司許可，擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作，請聯系【客服】

本文鏈接：http://www.szxzyx.cn/pat/books/200710304280.5/1.html，轉載請聲明來源鉆瓜專利網。

上一篇：數據塊副本數量調整方法及分布式文件系統
下一篇：CPU資源調度方法及虛擬機監視器、虛擬機系統

同類專利

專利分類

G 物理

G06 計算；推算；計數
G06F 電數字數據處理
G06F17-00 特別適用于特定功能的數字計算設備或數據處理設備或數據處理方法
G06F17-10 .復雜數學運算的
G06F17-20 .處理自然語言數據的
G06F17-30 .信息檢索；及其數據庫結構
G06F17-40 .數據的獲取和記錄
G06F17-50 .計算機輔助設計

免登錄下載普通用戶下載升級VIP會員，免費下載

專利文獻下載

說明：

1、專利原文基于中國國家知識產權局專利說明書；

2、支持發明專利、實用新型專利、外觀設計專利（升級中）；

3、專利數據每周兩次同步更新，支持Adobe PDF格式；

4、內容包括專利技術的結構示意圖、流程工藝圖或技術構造圖；

5、已全新升級為極速版,下載速度顯著提升！歡迎使用！

請您登陸后，進行下載，點擊【登陸】【注冊】