[發明專利]分布式Web文檔聚類系統無效
| 申請號: | 201110083090.1 | 申請日: | 2011-03-31 |
| 公開(公告)號: | CN102110172A | 公開(公告)日: | 2011-06-29 |
| 發明(設計)人: | 劉永利 | 申請(專利權)人: | 河南理工大學 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 454000 河南省焦作*** | 國省代碼: | 河南;41 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 分布式 web 文檔 系統 | ||
1.一種分布式Web文檔聚類系統,該系統包括多個局部數據節點服務器和一個中心數據節點服務器,每個局部數據節點服務器負責存儲Web文檔及完成局部聚類,中心數據節點服務器負責完成全局聚類,其特征在于:該系統采取以下步驟進行聚類:
①設在一個分布式的環境中,Web文檔分布在n個數據節點N1,N2,…,Nn上,各個節點上的文檔數目分別為s1,s2,…,sn,節點Ni上的文檔表示為假設文檔的特征詞集合為{t1,t2,…,tm},其中n、i和m為自然數,且m為特征詞個數,1≤i≤n。
②針對每個節點Ni,使用下述方法進行局部聚類:
1)得到節點Ni上各文檔的向量表示形式,根據文檔中特征詞的分布情況,文檔的向量形式表示為
其中,1≤j≤si,表示文檔中特征詞ta出現的條件概率,1≤a≤m,其計算方法為表示文檔中特征詞ta的出現次數;
2)將節點Ni上的文檔表示為一個集合從中隨機取一個文檔表示為將其初始化為一個簇,記為存放在簇集合Ci中,即同時將從Xi中刪除,簇的向量形式表示為:
其中,表示簇中特征詞ta出現的條件概率,表示文檔中特征詞ta出現的條件概率;
3)從Xi中取一個文檔xi,并將其初始化為一個簇從Ci中尋找簇ci,使得其中表示合并和兩個簇時產生的共有信息損失,其計算方法如下:
其中,|Xi|表示集合Xi中文檔的個數,表示合并和兩個簇所得到的新簇中特征詞ta出現的條件概率,
得到ci之后,若將的值加入到最小值列表Li中,將xi添加到簇ci中;否則,為xi新建一個簇保存,并將新建的簇添加到集合Ci中,其中αi為調節系數,averi為最小值列表Li中所有最小值的算術平均,Li在初始時為空;
4)若Xi中還有文檔未處理,則重復步驟3。
5)對上述聚類結果進行調整,依次從Ci的每個簇中取每個文檔x構成一個新的簇{x},根據共有信息損失最小原則,將{x}合并到Ci包含的一個簇中,從而完成對聚類結果的一次調整,將上述針對調整過程循環sum次后,聚類過程完成,其中sum為一個自然數;
③綜合各節點的聚類結果,使用DCIB方法進行全局聚類
1)節點Ni上的文檔經局部聚類后產生的簇集合表示為ki表示節點Ni上的聚類結果所包含的簇數目,由局部聚類的過程可知,簇的向量表示形式為其中表示簇中特征詞ta出現的條件概率,v為一個自然數,1≤v≤ki;
2)將所有節點上聚類得到的簇集合進行合并,得到所有簇組成的集合C,即
其中,從集合C中隨機取一個簇表示為c0,存放在簇集合C′中,即C′={{c0}},其中集合C′的元素為簇,這些簇由局部聚類階段產生的簇組成,即C′={{c1,c2},{c3,c4},{c5,c6}}),同時將c0從C中刪除;簇c0的向量形式表示為:
其中,p(ta|c0)表示簇c0中特征詞ta出現的條件概率;
3)從集合C中取一個簇記為ce,從C′中尋找簇c,使得其中D(ce,cf)表示合并ce和cf兩個簇時產生的共有信息損失,其計算方法如下:
其中,|cu|表示簇cu所包含簇的個數,p(ta|ce∪cf)表示合并ce和cf兩個簇所得到的新簇中特征詞ta出現的條件概率,
得到c之后,若D(ce,c)<α×aver,將D(ce,c)的值加入到最小值列表L中,將ce添加到簇c中;否則,為ce新建一個簇保存,并將新建的簇添加到集合C′中,其中α為調節系數,aver為最小值列表L中所有最小值的算術平均,L在初始時為空;
④若C中還有簇未處理,則重復步驟3;
⑤對上述聚類結果進行調整,依次從C′的每個簇中取每個簇c′構成一個新的簇{c′},根據共有信息損失最小原則,將{c′}合并到C′包含的一個簇中,從而完成對聚類結果的一次調整;將上述針對調整過程循環sum次后,聚類過程完成。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于河南理工大學,未經河南理工大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201110083090.1/1.html,轉載請聲明來源鉆瓜專利網。





