[發明專利]聚類方法及裝置有效
| 申請號: | 200910089176.8 | 申請日: | 2009-08-03 |
| 公開(公告)號: | CN101989281A | 公開(公告)日: | 2011-03-23 |
| 發明(設計)人: | 孫宏偉;胡珉;羅治國 | 申請(專利權)人: | 中國移動通信集團公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 北京同達信恒知識產權代理有限公司 11291 | 代理人: | 郭潤湘 |
| 地址: | 100032 *** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 方法 裝置 | ||
技術領域
本發明涉及信息檢索領域,尤其涉及一種聚類方法及裝置。
背景技術
檢索結果聚類,是指將搜索引擎搜索到的檢索結果中類似的搜索結果聚集成簇的過程,其中,簇是一組彼此相似的檢索結果的集合,相同簇中的檢索結果彼此相似,而不同簇中的檢索結果則往往彼此相異。檢索結果聚類能夠幫助用戶更好的使用搜索引擎,比如,能夠幫助用戶更加快速的定位到需要的信息,或者能夠幫助用戶獲取更加全面的信息等。
在現有技術中,已有的檢索結果聚類方法主要分為兩類:一類被稱為基于文檔(Documents-Based)的方法;而另一類被稱為基于標簽(Label-Based)的方法。所謂基于文檔的方法是指首先通過傳統的文檔聚類方法,把文檔聚集成多個類別,然后再從各類別中分別抽取出合適的聚類標簽來標注各個類別,由于采用基于文檔的方法往往不能生成可讀性較好的聚類標簽,不同聚類標簽之間區分性較小,從而用戶難以從區分性較小的各聚類標簽中找到符合自己需求的檢索結果,因此這一類方法只是在早期的檢索結果聚類工作中使用較多;而基于標簽的方法則是指首先從文檔中抽取一些有代表性的詞語,然后對抽取的詞語進行合理的評價與篩選,并將經過評價和篩選處理后得到的不同詞語作為對應于不同類別文檔的聚類標簽,從而后續可以以該不同類別的聚類標簽為基礎,進一步實現對文檔的分類,在這類方法中,聚類標簽的選取很關鍵,但按照現有技術中提供的聚類標簽選取方式,同樣很難得到可讀性較好的聚類標簽。
由上述可知,現有技術采用的各類檢索結果聚類方法都存在著難以生成可讀性較好的聚類標簽,從而使得用戶難以按照聚類標簽找到符合自己需求的檢索結果的缺陷。
發明內容
本發明實施例提供一種聚類方法及裝置,用以解決按照現有技術提供的檢索結果聚類方法難以生成可讀性較好的聚類標簽的缺陷。
為此,本發明實施例采用以下技術方案:
一種聚類方法,包括:根據預設的選取策略,從待聚類的各個文檔中選取第一候選字串集合;針對所述第一候選字串集合中的各字串,根據與該字串相關的參數,從所述第一候選字串集合中選取第二候選字串,所述與該字串相關的參數為該字串出現在所述待聚類的所有文檔中的總次數、該字串出現在指定文檔中的總次數、該字串包含的字符個數以及所述待聚類的文檔中包含該各字串的文檔個數中的至少一個參數;將所述第二候選字串確定為對所述待聚類的各個文檔進行聚類的聚類標簽,并將所述待聚類的各個文檔分別歸類到與所述聚類標簽對應的簇中。
較佳地,針對所述第一候選字串集合中的各字串,根據與該字串相關的參數,從所述第一候選字串集合中選取第二候選字串具體包括:針對所述第一候選字串集合中的各字串,根據該字串出現在所述待聚類的所有文檔中的總次數、該字串出現在指定文檔中的總次數、該字串包含的字符個數以及所述待聚類的文檔中包含該各字串的文檔個數,采用下述公式計算該字串的重要度Score:
其中,word.tf為該字串出現在所述待聚類的各個文檔中的總次數,word.normtf為該字串出現在所述指定文檔中的總次數,word.df為包含該字串的所述待聚類的文檔個數,word.length為該字串包含的字符個數;
在計算出所述第一候選字串集合中各字串的重要度Score時,根據所述重要度Score,從所述第一候選字串集合中選取第二候選字串。
較佳地,所述方法還包括:按照所述確定的聚類標簽的重要度Score由大至小的順序,對所述確定的聚類標簽進行對應排列。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中國移動通信集團公司,未經中國移動通信集團公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/200910089176.8/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:分布式文件解析方法和解析系統
- 下一篇:連續數據的數值分析方法及系統





