[發明專利]一種基于相似度矩陣譜分解的文本聚類集成方法無效
| 申請號: | 201310296285.3 | 申請日: | 2013-07-16 |
| 公開(公告)號: | CN103365999A | 公開(公告)日: | 2013-10-23 |
| 發明(設計)人: | 徐森;李先鋒;曹瑞;陳榮 | 申請(專利權)人: | 鹽城工學院 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 南京蘇高專利商標事務所(普通合伙) 32204 | 代理人: | 李玉平 |
| 地址: | 224051*** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 相似 矩陣 分解 文本 集成 方法 | ||
1.一種基于相似度矩陣譜分解的文本聚類集成方法,其特征在于,包括以下步驟:
(1)將文本集合表示為詞-文本共現矩陣A;
(2)構造多個基聚類器對詞-文本共現矩陣A的列進行聚類;
(3)集成基聚類器的結果獲得最終的聚類結果;
(4)結束。
2.根據權利要求1所述的基于相似度矩陣譜分解的文本聚類集成方法,其特征在于,所說將文本集合表示為詞-文本共現矩陣的步驟是:
(1)步驟111對文本集合進行分詞處理,得到所有詞構成的集合W0;
(2)步驟112對照停用詞表,移除集合W0中的停用詞,得到詞集W1;
(3)步驟113移除詞集W1中的低頻詞,得到特征詞集W;
(4)步驟114統計特征詞集W中每個特征詞wi在每個文本dj中出現的次數tij;
(5)步驟115構建詞-文本共現矩陣A:Aij=tij,1≤i≤d,1≤j≤n,d為特征詞個數,亦即向量空間的維數,n為文本集合的大小;
(6)結束。
3.根據權利要求2所述的基于相似度矩陣譜分解的文本聚類集成方法,其特征在于,所說構造多個基聚類器對A的列進行聚類的步驟是:
(1)步驟121從用戶處獲得要使用的基聚類器個數r和聚類個數k;其中r是一個大于1的整數,k為真實文本類別數;
(2)步驟122將控制參數i置初值1;
(3)步驟123判斷i是否小于或等于r,是則執行步驟124,否則轉到步驟128;
(4)步驟124采用余弦相似度函數計算文本相似度;
(5)步驟125隨機生成k個d維均值向量,作為K均值算法的初始質心向量,使用K均值算法對A進行劃分;
(6)步驟126得到基聚類器的結果P(i);
(7)步驟127將控制變量i加1,然后轉到步驟123;
(8)步驟128輸出多個基聚類器的結果Π={Ρ(1),…,P(r)};
(9)結束。
4.根據權利要求3所述的基于相似度矩陣譜分解的文本聚類集成方法,其特征在于,構造多個基聚類器對A的列進行聚類的方法,所述采用余弦相似度函數計算文本相似度的步驟是:
(1)步驟1241計算詞頻tfij=tij/Σitij,tfij捕獲了詞wi在文本dj中的重要性;
(2)步驟1242計算每個詞wi出現在文本集合中的次數ni;
(3)步驟1243計算逆文本頻率idfi=log(n/ni),idfi捕獲了詞wi在整個文本集合中的重要性;
(4)步驟1244計算歸一化因子sj=(Σdi=1(tfij×idfi)2)1/2,sj的作用是得文本向量的歐幾里德范數為1;
(5)步驟1245計算經過TF-IDF加權的文本向量uj:uij=tfij×idfi×sj;
(6)步驟1246計算任意兩個文本向量di、dj的余弦相似度sim(di,dj)=cos(θ(di,dj))=ui·uj/||ui||||uj||=ui·uj=uiujT;
(7)結束。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于鹽城工學院,未經鹽城工學院許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201310296285.3/1.html,轉載請聲明來源鉆瓜專利網。





