[發明專利]一種基于分布-收斂模型的文獻聚類方法有效

申請號：	201510706636.2	申請日：	2015-10-27
公開（公告）號：	CN105335499B	公開（公告）日：	2019-04-05
發明（設計）人：	李益娟;李永萍;徐小龍;徐友武	申請（專利權）人：	鹽城工學院
主分類號：	G06F16/35	分類號：	G06F16/35
代理公司：	南京經緯專利商標代理有限公司 32200	代理人：	許方
地址：	224051 ***	國省代碼：	江蘇;32
權利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關鍵詞：	一種基于分布收斂模型文獻方法
鉆瓜網技術展會專利詞庫專利權人專利榜在售專利公布日期熱門專利

【權利要求書】：

1.一種基于分布-收斂模型的文獻聚類方法，其特征在于：包括如下步驟：

步驟1，利用分布-收斂模型構建待聚類文獻的共現矩陣；

步驟2，根據步驟1得到的共現矩陣計算待聚類文獻的相近度矩陣；其中，所述計算待聚類文獻的相近度矩陣的方法為：相近度矩陣SM_n×n中元素sm_ij的值為cm_ij與第i行代表的關鍵詞、第j列代表的關鍵詞分別在待聚類文獻的關鍵詞中出現的篇數的幾何平均值之商，i＝1,…,n，j＝1,…,n，i≠j；當i＝j時，sm_ij＝1；cm_ij為共現矩陣CM_n×n第i行第j列的元素，i＝1,…,n，j＝1,…,n；

步驟3，對步驟2得到的相近度矩陣進行標準化得到標準化后的矩陣；

步驟4，對步驟3標準化后的矩陣，利用離差平方和法進行層次聚類，得到最終聚類結果。

2.如權利要求1所述基于分布-收斂模型的文獻聚類方法，其特征在于：步驟1所述構建待聚類文獻的共現矩陣的方法為：提取待聚類文獻的關鍵詞構建共現矩陣CM_n×n，共現矩陣CM_n×n的每一行代表一個關鍵詞、每一列代表一個關鍵詞，且第i行與第i列所代表的關鍵詞相同；共現矩陣第i行第j列的元素cm_ij代表待聚類文獻中同時出現第i行代表的關鍵詞與第j列代表的關鍵詞的文獻的篇數，i＝1,…,n，j＝1,…,n。

3.如權利要求1所述基于分布-收斂模型的文獻聚類方法，其特征在于：步驟3所述標準化后的矩陣中元素其中，

4.如權利要求1所述基于分布-收斂模型的文獻聚類方法，其特征在于：步驟4所述離差平方和法的計算公式為：其中，d_w(C₁,C₂)表示兩個簇C₁、C₂之間的距離，x_i、y_j分別表示簇中的對象，n₁、n₂分別表示各個簇中的對象個數，分別表示兩個簇C₁、C₂的質心，||·||₂表示歐幾里得距離。