[發明專利]聚類方法及裝置有效
| 申請號: | 200910089176.8 | 申請日: | 2009-08-03 |
| 公開(公告)號: | CN101989281A | 公開(公告)日: | 2011-03-23 |
| 發明(設計)人: | 孫宏偉;胡珉;羅治國 | 申請(專利權)人: | 中國移動通信集團公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 北京同達信恒知識產權代理有限公司 11291 | 代理人: | 郭潤湘 |
| 地址: | 100032 *** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 方法 裝置 | ||
1.一種聚類方法,其特征在于,包括:
根據預設的選取策略,從待聚類的各個文檔中選取第一候選字串集合;
針對所述第一候選字串集合中的各字串,根據與該字串相關的參數,從所述第一候選字串集合中選取第二候選字串,所述與該字串相關的參數為該字串出現在所述待聚類的所有文檔中的總次數、該字串出現在指定文檔中的總次數、該字串包含的字符個數以及所述待聚類的文檔中包含該各字串的文檔個數中的至少一個參數;
將所述第二候選字串確定為對所述待聚類的各個文檔進行聚類的聚類標簽,并將所述待聚類的各個文檔分別歸類到與所述聚類標簽對應的簇中。
2.如權利要求1所述的方法,其特征在于,針對所述第一候選字串集合中的各字串,根據與該字串相關的參數,從所述第一候選字串集合中選取第二候選字串具體包括:
針對所述第一候選字串集合中的各字串,根據該字串出現在所述待聚類的所有文檔中的總次數、該字串出現在指定文檔中的總次數、該字串包含的字符個數以及所述待聚類的文檔中包含該各字串的文檔個數,采用下述公式計算該字串的重要度Score:
其中,word.tf為該字串出現在所述待聚類的各個文檔中的總次數,word.normtf為該字串出現在所述指定文檔中的總次數,word.df為包含該字串的所述待聚類的文檔個數,word.length為該字串包含的字符個數;
在計算出所述第一候選字串集合中各字串的重要度Score后,根據所述重要度Score,從所述第一候選字串集合中選取第二候選字串。
3.如權利要求2所述的方法,其特征在于,還包括:
按照所述確定的聚類標簽的重要度Score由大至小的順序,對所述確定的聚類標簽進行對應排列。
4.如權利要求1所述的方法,其特征在于,根據預設的選取策略,從待聚類的各個文檔中選取第一候選字串集合具體包括:
從待聚類的各個文檔所包含的字串中,選取字串包含的字符個數與預設的第一字符個數閾值一致的字串;
從所述選取的字串中選取符合預設規則的第一候選字串集合,所述預設規則為以下規則中的任意一種或為以下規則的任意組合:
針對所述第一候選字串集合中的各字串,包含該字串的所述待聚類的文檔的個數不小于預設的第一閾值;
針對所述第一候選字串集合中的各字串,在所述待聚類的各個文檔中,與該字串相鄰、位于該字串之前、且包含的字符數目與預設的第二字符個數閾值一致的不同字串的個數不小于預設的第二閾值;
針對所述第一候選字串集合中的各字串,在所述待聚類的各個文檔中,與該字串相鄰、位于該字串之后、且包含的字符數目與預設的第二字符個數閾值一致的不同字串的個數不小于預設的第三閾值;
針對所述第一候選字串集合中的各字串,該字串出現在所述待聚類的所有文檔中的總次數除以該字串包含的各字符出現在所述待聚類的所有文檔中的總次數所得的數值不小于預設的第四閾值。
5.如權利要求1、2或4所述的方法,其特征在于,采用多模式匹配的方法,將所述待聚類的各個文檔分別歸類到與所述聚類標簽對應的簇中。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中國移動通信集團公司,未經中國移動通信集團公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/200910089176.8/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:分布式文件解析方法和解析系統
- 下一篇:連續數據的數值分析方法及系統





