[發明專利]聚類方法及裝置有效

申請號：	200910089176.8	申請日：	2009-08-03
公開（公告）號：	CN101989281A	公開（公告）日：	2011-03-23
發明（設計）人：	孫宏偉;胡珉;羅治國	申請（專利權）人：	中國移動通信集團公司
主分類號：	G06F17/30	分類號：	G06F17/30
代理公司：	北京同達信恒知識產權代理有限公司 11291	代理人：	郭潤湘
地址：	100032 ***	國省代碼：	北京;11
權利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關鍵詞：	方法裝置
鉆瓜網技術展會專利詞庫專利權人專利榜在售專利公布日期熱門專利

【權利要求書】：

1.一種聚類方法，其特征在于，包括：

根據預設的選取策略，從待聚類的各個文檔中選取第一候選字串集合；

針對所述第一候選字串集合中的各字串，根據與該字串相關的參數，從所述第一候選字串集合中選取第二候選字串，所述與該字串相關的參數為該字串出現在所述待聚類的所有文檔中的總次數、該字串出現在指定文檔中的總次數、該字串包含的字符個數以及所述待聚類的文檔中包含該各字串的文檔個數中的至少一個參數；

將所述第二候選字串確定為對所述待聚類的各個文檔進行聚類的聚類標簽，并將所述待聚類的各個文檔分別歸類到與所述聚類標簽對應的簇中。

2.如權利要求1所述的方法，其特征在于，針對所述第一候選字串集合中的各字串，根據與該字串相關的參數，從所述第一候選字串集合中選取第二候選字串具體包括：

針對所述第一候選字串集合中的各字串，根據該字串出現在所述待聚類的所有文檔中的總次數、該字串出現在指定文檔中的總次數、該字串包含的字符個數以及所述待聚類的文檔中包含該各字串的文檔個數，采用下述公式計算該字串的重要度Score：

Score=word.tfword.normtf*word.df*log(word.length)]]>

其中，word.tf為該字串出現在所述待聚類的各個文檔中的總次數，word.normtf為該字串出現在所述指定文檔中的總次數，word.df為包含該字串的所述待聚類的文檔個數，word.length為該字串包含的字符個數；

在計算出所述第一候選字串集合中各字串的重要度Score后，根據所述重要度Score，從所述第一候選字串集合中選取第二候選字串。

3.如權利要求2所述的方法，其特征在于，還包括：

按照所述確定的聚類標簽的重要度Score由大至小的順序，對所述確定的聚類標簽進行對應排列。

4.如權利要求1所述的方法，其特征在于，根據預設的選取策略，從待聚類的各個文檔中選取第一候選字串集合具體包括：

從待聚類的各個文檔所包含的字串中，選取字串包含的字符個數與預設的第一字符個數閾值一致的字串；

從所述選取的字串中選取符合預設規則的第一候選字串集合，所述預設規則為以下規則中的任意一種或為以下規則的任意組合：

針對所述第一候選字串集合中的各字串，包含該字串的所述待聚類的文檔的個數不小于預設的第一閾值；

針對所述第一候選字串集合中的各字串，在所述待聚類的各個文檔中，與該字串相鄰、位于該字串之前、且包含的字符數目與預設的第二字符個數閾值一致的不同字串的個數不小于預設的第二閾值；

針對所述第一候選字串集合中的各字串，在所述待聚類的各個文檔中，與該字串相鄰、位于該字串之后、且包含的字符數目與預設的第二字符個數閾值一致的不同字串的個數不小于預設的第三閾值；

針對所述第一候選字串集合中的各字串，該字串出現在所述待聚類的所有文檔中的總次數除以該字串包含的各字符出現在所述待聚類的所有文檔中的總次數所得的數值不小于預設的第四閾值。

5.如權利要求1、2或4所述的方法，其特征在于，采用多模式匹配的方法，將所述待聚類的各個文檔分別歸類到與所述聚類標簽對應的簇中。

下載完整專利技術內容需要扣除積分，VIP會員可以免費下載。

免登錄下載普通用戶下載升級VIP會員，免費下載

該專利技術資料僅供研究查看技術是否侵權等信息，商用須獲得專利權人授權。該專利全部權利屬于中國移動通信集團公司，未經中國移動通信集團公司許可，擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作，請聯系【客服】

本文鏈接：http://www.szxzyx.cn/pat/books/200910089176.8/1.html，轉載請聲明來源鉆瓜專利網。

專利分類

專利文獻下載

說明：

1、專利原文基于中國國家知識產權局專利說明書；

2、支持發明專利、實用新型專利、外觀設計專利（升級中）；

3、專利數據每周兩次同步更新，支持Adobe PDF格式；

4、內容包括專利技術的結構示意圖、流程工藝圖或技術構造圖；

5、已全新升級為極速版,下載速度顯著提升！歡迎使用！

請您登陸后，進行下載，點擊【登陸】【注冊】