[發明專利]文本聚類方法有效
| 申請號: | 201310754063.1 | 申請日: | 2013-12-31 |
| 公開(公告)號: | CN103714171B | 公開(公告)日: | 2017-02-01 |
| 發明(設計)人: | 蔡業首;陳小軍;管婷婷;黃哲學 | 申請(專利權)人: | 深圳先進技術研究院 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 廣州三環專利代理有限公司44202 | 代理人: | 郝傳鑫,熊永強 |
| 地址: | 518055 廣東省深圳*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 文本 方法 | ||
技術領域
本發明涉及數據挖掘領域,尤其涉及一種文本聚類方法。
背景技術
隨著大數據時代的到來,人們面臨著在高維數據上做數據聚類的嚴峻挑戰。維度過高直接帶來的是數據的稀疏,這一現象在文本挖掘中尤為明顯。聚類算法是一類對高維稀疏數據進行聚類的有效方法,作為一種聚類算法,FG-Kmeans算法(Chen,X.,Ye,Y.,Xu,X.,Huang,J.Z.:A?feature?group?weighting?method?for?subspace?clustering?of?high-dimensional?data.Pattern?Recognition45(1)(2012))成功的將組的概念引入到軟聚類當中,在FG-Kmeans算法中,特征根據相似性被分為若干個組,該算法同時對特征和組進行加權,找出聚類完成之后每個簇中比較重要的特征組以及特征組比較重要的特征。實驗證明FG-Kmeans相比于其他軟聚類算法可以更有效地面對數據的稀疏問題。
然而,FG-Kmeans需要事先對數據集的特征進行分組,才能將FG-Kmeans算法應用于數據集上。而到目前為止還沒有一種算法可以對數據集上的特征進行自動的分組,這在很大程度上限制了該算法的推廣應用。
發明內容
針對上述問題,本發明的目的在于提供一種文本聚類方法,其利用潛在狄利克雷分布(Latent?Dirichlet?Allocation,LDA)模型對文本進行過濾和分組,然后利用FG-Kmeans算法對過濾和分組后的文本做進一步的聚類處理,很好地解決了文本挖掘中數據的高維和稀疏的特點,而且把分組的概念引入了特征空間,使得特征空間包含的信息更為豐富。
為了解決上述技術問題,本發明提供了一種文本聚類方法,用潛在狄利克雷分布模型對文檔集進行文本挖掘,其特征在于,所述文本聚類方法至少包括如下步驟:
在第一文檔集D1中對預設了主題數量K的潛在狄利克雷分布算法進行訓練,得到參數β和φ,其中,所述第一文檔集D1包括N個不重復的特征,分別記為V1…VN,所述K和N均為自然數;
根據參數φ,利用信息熵理論對所述第一文檔集D1進行過濾,得到第二文檔集D2;
根據參數β,對第二文檔集D2進行分組,生成包含分組信息的第三文檔集D3;以及
在第三文檔集D3上運行FG-Kmeans算法,得到最終聚類的聚類中心集合C以及標記矩陣U。
其中,所述K個主題分別記為Z1…ZK,所述第一文檔集D1包括M個文檔,分別記為d1…dM,所述第一文檔集D1的每個文檔dm(1≤m≤M)由這K個主題Zk(1≤k≤K)按照一定的比例分布而成,如此通過所述潛在狄利克雷分布算法將所述第一文檔集D1降維成一M×K的主題分布矩陣θ,θ的每一行θm(1≤m≤M)表示文檔dm在K個主題下的概率分布,滿足約束其中,M為自然數。
其中,所述文檔dm的主題分布θm服從參數為α的狄利克雷分布,即θm~Dirichlet(α),其中,α為超參數,由經驗值獲得。
其中,所述參數β通過最大期望算法或吉布斯算法獲得,所述參數β為一K×N矩陣,矩陣元βkn(1≤k≤K,1≤n≤N)表示所述第一文檔集D1中第n個特征Wn在第k個主題Zk下出現的概率,滿足約束條件
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于深圳先進技術研究院,未經深圳先進技術研究院許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201310754063.1/2.html,轉載請聲明來源鉆瓜專利網。





