[發明專利]一種基于分布-收斂模型的文獻聚類方法有效
| 申請號: | 201510706636.2 | 申請日: | 2015-10-27 |
| 公開(公告)號: | CN105335499B | 公開(公告)日: | 2019-04-05 |
| 發明(設計)人: | 李益娟;李永萍;徐小龍;徐友武 | 申請(專利權)人: | 鹽城工學院 |
| 主分類號: | G06F16/35 | 分類號: | G06F16/35 |
| 代理公司: | 南京經緯專利商標代理有限公司 32200 | 代理人: | 許方 |
| 地址: | 224051 *** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 分布 收斂 模型 文獻 方法 | ||
1.一種基于分布-收斂模型的文獻聚類方法,其特征在于:包括如下步驟:
步驟1,利用分布-收斂模型構建待聚類文獻的共現矩陣;
步驟2,根據步驟1得到的共現矩陣計算待聚類文獻的相近度矩陣;其中,所述計算待聚類文獻的相近度矩陣的方法為:相近度矩陣SMn×n中元素smij的值為cmij與第i行代表的關鍵詞、第j列代表的關鍵詞分別在待聚類文獻的關鍵詞中出現的篇數的幾何平均值之商,i=1,…,n,j=1,…,n,i≠j;當i=j時,smij=1;cmij為共現矩陣CMn×n第i行第j列的元素,i=1,…,n,j=1,…,n;
步驟3,對步驟2得到的相近度矩陣進行標準化得到標準化后的矩陣;
步驟4,對步驟3標準化后的矩陣,利用離差平方和法進行層次聚類,得到最終聚類結果。
2.如權利要求1所述基于分布-收斂模型的文獻聚類方法,其特征在于:步驟1所述構建待聚類文獻的共現矩陣的方法為:提取待聚類文獻的關鍵詞構建共現矩陣CMn×n,共現矩陣CMn×n的每一行代表一個關鍵詞、每一列代表一個關鍵詞,且第i行與第i列所代表的關鍵詞相同;共現矩陣第i行第j列的元素cmij代表待聚類文獻中同時出現第i行代表的關鍵詞與第j列代表的關鍵詞的文獻的篇數,i=1,…,n,j=1,…,n。
3.如權利要求1所述基于分布-收斂模型的文獻聚類方法,其特征在于:步驟3所述標準化后的矩陣中元素其中,
4.如權利要求1所述基于分布-收斂模型的文獻聚類方法,其特征在于:步驟4所述離差平方和法的計算公式為:其中,dw(C1,C2)表示兩個簇C1、C2之間的距離,xi、yj分別表示簇中的對象,n1、n2分別表示各個簇中的對象個數,分別表示兩個簇C1、C2的質心,||·||2表示歐幾里得距離。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于鹽城工學院,未經鹽城工學院許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201510706636.2/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種推送歌曲的方法及裝置
- 下一篇:用戶數據導入方法及系統





