[發明專利]一種基于信息瓶頸理論的文檔聚類方法無效

申請號：	200910084841.4	申請日：	2009-05-25
公開（公告）號：	CN101571868A	公開（公告）日：	2009-11-04
發明（設計）人：	劉永利;熊璋;任捷;歐陽元新	申請（專利權）人：	北京航空航天大學
主分類號：	G06F17/30	分類號：	G06F17/30
代理公司：	北京永創新實專利事務所	代理人：	周長琪
地址：	100083***	國省代碼：	北京;11
權利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關鍵詞：	一種基于信息瓶頸理論文檔方法
鉆瓜網技術展會專利詞庫專利權人專利榜在售專利公布日期熱門專利

【權利要求書】：

1、一種基于信息瓶頸理論的文檔聚類方法，其特征在于：該方法一方面利用信息瓶頸理論計算文檔之間的相似度d，另一方面利用增量式的聚類方法對文檔進行聚類獲得聚類結果C；在聚類過程中的處理步驟有：

步驟一，采用建簇方法對待聚類文檔T＝{t₁，t₂，t₃，……，t_m}中的全部文檔進行簇處理，從而獲得一個簇集合CT＝{ct₁，ct₂，ct₃，……，ct_m}；

第一文檔t₁的簇記為第一簇ct₁；

第二文檔t₂的簇記為第一簇ct₂；

第三文檔t₃的簇記為第一簇ct₃；

……；

第m文檔t_m的簇記為第一簇ct_m；

步驟二，將第二文檔t₂與簇集合CT進行最小共有信息損失的計算，如果最小共有信息損失滿足規定閾值ε＝α×aver，則將該第二文檔t₂合并到簇集合CT中相似度最高的哪個簇中，否則新建一個簇c_i來存放該第二文檔t₂；

步驟三，采用與步驟二相同的方式對第三文檔t₃、……、第m文檔t_m進行聚類處理，得到聚類結果C＝c₁，……，c_n，新建簇c_i屬于聚類結果C中；

步驟四，對聚類結果C采用序列聚類方法進行調整，得到最終的聚類結果C_final，該最終聚類結果C_final能夠將所有待聚類文檔T依據相似度d自動化分為若干個簇c_n，并保證簇內的相似度盡可能大，簇間的相似度盡可能小。

下載完整專利技術內容需要扣除積分，VIP會員可以免費下載。

免登錄下載普通用戶下載升級VIP會員，免費下載

該專利技術資料僅供研究查看技術是否侵權等信息，商用須獲得專利權人授權。該專利全部權利屬于北京航空航天大學，未經北京航空航天大學許可，擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作，請聯系【客服】

本文鏈接：http://www.szxzyx.cn/pat/books/200910084841.4/1.html，轉載請聲明來源鉆瓜專利網。

專利分類

專利文獻下載

說明：

1、專利原文基于中國國家知識產權局專利說明書；

2、支持發明專利、實用新型專利、外觀設計專利（升級中）；

3、專利數據每周兩次同步更新，支持Adobe PDF格式；

4、內容包括專利技術的結構示意圖、流程工藝圖或技術構造圖；

5、已全新升級為極速版,下載速度顯著提升！歡迎使用！

請您登陸后，進行下載，點擊【登陸】【注冊】