[發明專利]一種基于層次狄利克雷多項分配模型的多源文本聚類方法在審
| 申請號: | 202010570969.8 | 申請日: | 2020-06-22 |
| 公開(公告)號: | CN111813935A | 公開(公告)日: | 2020-10-23 |
| 發明(設計)人: | 黃瑞章;許偉佳;秦永彬;陳艷平 | 申請(專利權)人: | 貴州大學 |
| 主分類號: | G06F16/35 | 分類號: | G06F16/35;G06F40/284 |
| 代理公司: | 貴陽中新專利商標事務所 52100 | 代理人: | 張成 |
| 地址: | 550025 貴州省貴*** | 國省代碼: | 貴州;52 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 層次 狄利克雷 多項 分配 模型 文本 方法 | ||
1.一種基于層次狄利克雷多項分配模型的多源文本聚類方法,其特征在于:所述方法包含有如下步驟:一、從多個來源收集文本集;二、將來自多個數據源的文本信息進行文本預處理;三、基于層次狄利克雷多項分配模型構建主題模型;四、進行Blocked Gibbs采樣方并更新參數β;五、根據采樣結果進行文本聚類。
2.根據權利要求1所述的基于層次狄利克雷多項分配模型的多源文本聚類方法,其特征在于:所述步驟二中,預處理方法是進行分詞,去停用詞、低頻詞及標點數字。
3.根據權利要求1所述的基于層次狄利克雷多項分配模型的多源文本聚類方法,其特征在于:所述步驟三中,構建的多源主題模型的文本生成步驟為:
1)對于每個主題k:
A.選擇βk,i~N(μ,σ2I),i=1,2,…,V
B.對于每個數據源s:
選擇
2)對于每一個數據源s:
C.選擇
D.對于數據源s中的文檔d:
選擇
E.對于文檔d中的單詞w:
選擇wi~Multinomial(wi|zd,φs)
4.根據權利要求1所述的基于層次狄利克雷多項分配模型的多源文本聚類方法,其特征在于:所述步驟四中,基于步驟三所構建的主題模型,利用Blocked Gibbs采樣算法,采樣多源數據集中每個數據源的特征詞分布、噪音詞分布以及主題分布,當采樣結果趨于穩定后,更新產生主題-詞分布參數的狄利克雷參數β,并重復Blocked Gibbs采樣過程。
5.根據權利要求4所述的基于層次狄利克雷多項分配模型的多源文本聚類方法,其特征在于:所述Blocked Gibbs采樣的推斷過程如下:
對多源數據集中每一個數據源s:
3)更新主題-詞分布
4)更新主題分布θs;
5)更新每篇文本的主題其中d={1,2,...,Ms}。
6.根據權利要求1所述的基于層次狄利克雷多項分配模型的多源文本聚類方法,其特征在于:所述步驟五中,根據步驟四的最終采樣得到聚類結果。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于貴州大學,未經貴州大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010570969.8/1.html,轉載請聲明來源鉆瓜專利網。





