[發明專利]一種基于信息瓶頸理論的文檔聚類方法無效
| 申請號: | 200910084841.4 | 申請日: | 2009-05-25 |
| 公開(公告)號: | CN101571868A | 公開(公告)日: | 2009-11-04 |
| 發明(設計)人: | 劉永利;熊璋;任捷;歐陽元新 | 申請(專利權)人: | 北京航空航天大學 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 北京永創新實專利事務所 | 代理人: | 周長琪 |
| 地址: | 100083*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 信息 瓶頸 理論 文檔 方法 | ||
1、一種基于信息瓶頸理論的文檔聚類方法,其特征在于:該方法一方面利用信息瓶頸理論計算文檔之間的相似度d,另一方面利用增量式的聚類方法對文檔進行聚類獲得聚類結果C;在聚類過程中的處理步驟有:
步驟一,采用建簇方法對待聚類文檔T={t1,t2,t3,……,tm}中的全部文檔進行簇處理,從而獲得一個簇集合CT={ct1,ct2,ct3,……,ctm};
第一文檔t1的簇記為第一簇ct1;
第二文檔t2的簇記為第一簇ct2;
第三文檔t3的簇記為第一簇ct3;
……;
第m文檔tm的簇記為第一簇ctm;
步驟二,將第二文檔t2與簇集合CT進行最小共有信息損失的計算,如果最小共有信息損失滿足規定閾值ε=α×aver,則將該第二文檔t2合并到簇集合CT中相似度最高的哪個簇中,否則新建一個簇ci來存放該第二文檔t2;
步驟三,采用與步驟二相同的方式對第三文檔t3、……、第m文檔tm進行聚類處理,得到聚類結果C=c1,……,cn,新建簇ci屬于聚類結果C中;
步驟四,對聚類結果C采用序列聚類方法進行調整,得到最終的聚類結果Cfinal,該最終聚類結果Cfinal能夠將所有待聚類文檔T依據相似度d自動化分為若干個簇cn,并保證簇內的相似度盡可能大,簇間的相似度盡可能小。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京航空航天大學,未經北京航空航天大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/200910084841.4/1.html,轉載請聲明來源鉆瓜專利網。
- 信息記錄介質、信息記錄方法、信息記錄設備、信息再現方法和信息再現設備
- 信息記錄裝置、信息記錄方法、信息記錄介質、信息復制裝置和信息復制方法
- 信息記錄裝置、信息再現裝置、信息記錄方法、信息再現方法、信息記錄程序、信息再現程序、以及信息記錄介質
- 信息記錄裝置、信息再現裝置、信息記錄方法、信息再現方法、信息記錄程序、信息再現程序、以及信息記錄介質
- 信息記錄設備、信息重放設備、信息記錄方法、信息重放方法、以及信息記錄介質
- 信息存儲介質、信息記錄方法、信息重放方法、信息記錄設備、以及信息重放設備
- 信息存儲介質、信息記錄方法、信息回放方法、信息記錄設備和信息回放設備
- 信息記錄介質、信息記錄方法、信息記錄裝置、信息再現方法和信息再現裝置
- 信息終端,信息終端的信息呈現方法和信息呈現程序
- 信息創建、信息發送方法及信息創建、信息發送裝置





