[發明專利]文本聚類方法有效
| 申請號: | 201310754063.1 | 申請日: | 2013-12-31 |
| 公開(公告)號: | CN103714171B | 公開(公告)日: | 2017-02-01 |
| 發明(設計)人: | 蔡業首;陳小軍;管婷婷;黃哲學 | 申請(專利權)人: | 深圳先進技術研究院 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 廣州三環專利代理有限公司44202 | 代理人: | 郝傳鑫,熊永強 |
| 地址: | 518055 廣東省深圳*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 文本 方法 | ||
1.一種文本聚類方法,用潛在狄利克雷分布模型對文檔集進行文本挖掘,其特征在于,所述文本聚類方法至少包括如下步驟:
在第一文檔集D1中對預設了主題數量K的潛在狄利克雷分布算法進行訓練,得到參數β和φ,其中,所述第一文檔集D1包括N個不重復的特征,分別記為V1…VN,所述K和N均為自然數;
根據參數φ,利用信息熵理論對所述第一文檔集D1進行過濾,得到第二文檔集D2;
根據參數β,對第二文檔集D2進行分組,生成包含分組信息的第三文檔集D3;以及
在第三文檔集D3上運行FG-Kmeans算法,得到最終聚類的聚類中心集合C以及標記矩陣U。
2.根據權利要求1所述的文本聚類方法,其特征在于,所述K個主題分別記為Z1…ZK,所述第一文檔集D1包括M個文檔,分別記為d1…dM,所述第一文檔集D1的每個文檔dm(1≤m≤M)由這K個主題Zk(1≤k≤K)按照一定的比例分布而成,如此通過所述潛在狄利克雷分布算法將所述第一文檔集D1降維成一M×K的主題分布矩陣θ,θ的每一行θm(1≤m≤M)表示文檔dm在K個主題下的概率分布,滿足約束其中,M為自然數。
3.根據權利要求2所述的文本聚類方法,其特征在于,所述文檔dm的主題分布θm服從參數為α的狄利克雷分布,即θm~Dirichlet(α),其中,α為超參數,由經驗值獲得。
4.根據權利要求1所述的文本聚類方法,其特征在于,所述參數β通過最大期望算法或吉布斯算法獲得,所述參數β為一K×N矩陣,矩陣元βkn(1≤k≤K,1≤n≤N)表示所述第一文檔集D1中第n個特征Vn在第k個主題Zk下出現的概率,滿足約束條件
5.根據權利要求4所述的文本聚類方法,其特征在于,在利用所述最大期望算法或吉布斯算法求解所述參數β的過程中,還引入另一參數φ,所述參數φ為一K維列向量,所述文檔dm(1≤m≤M)中包含Lm個特征,將所述文檔dm中的特征記為Wm1…WmLm,則每一個特征Wml(1≤l≤Lm)具有一個K維列向量φml,φml的向量元φmlk(1≤k≤K)表示文檔dm的第l個特征Wml在主題Zk下的概率分布且滿足約束條件
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于深圳先進技術研究院,未經深圳先進技術研究院許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201310754063.1/1.html,轉載請聲明來源鉆瓜專利網。





