[發明專利]一種基于層次狄利克雷多項分配模型的多源文本聚類方法在審
| 申請號: | 202010570969.8 | 申請日: | 2020-06-22 |
| 公開(公告)號: | CN111813935A | 公開(公告)日: | 2020-10-23 |
| 發明(設計)人: | 黃瑞章;許偉佳;秦永彬;陳艷平 | 申請(專利權)人: | 貴州大學 |
| 主分類號: | G06F16/35 | 分類號: | G06F16/35;G06F40/284 |
| 代理公司: | 貴陽中新專利商標事務所 52100 | 代理人: | 張成 |
| 地址: | 550025 貴州省貴*** | 國省代碼: | 貴州;52 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 層次 狄利克雷 多項 分配 模型 文本 方法 | ||
本發明公開了一種基于層次狄利克雷多項分配模型的多源文本聚類方法,所述方法包含有如下步驟:一、從多個來源收集文本集;二、將來自多個數據源的文本信息進行文本預處理;三、基于層次狄利克雷多項分配模型構建主題模型;四、進行Blocked Gibbs采樣并更新參數;五、根據采樣結果進行文本聚類。本發明通過更新多源文本的主題?詞分布的先驗參數,改善多源文本聚類效果;所建立的模型能夠自動判別每個數據源文本中簇的數目,而不需要人為提前給定,能夠較大程度地提高多源文本聚類效果。
技術領域
本發明涉及一種文本聚類方法,尤其涉及一種基于層次狄利克雷多項分配模型的多源文本聚類方法,屬于機器學習和自然語言處理技術領域。
背景技術
隨著信息技術的飛速發展,人們獲取信息的途徑越來越多,尤其是文本信息。文本信息來源不同,其信息特征也不一致。我們可以從多源文本數據集中挖掘其主題信息以及文本結構信息,這對于很多場景都是非常有必要的。例如從各種新聞網站、論壇和社交媒體等來源挖掘其文本信息可以幫助我們了解社會關注的熱點話題,除此之外,我們通過分析市民熱線、交通公告牌等各種來源的交通信息,發現突發交通事故。因此,研究一種基于多源文本數據集的主題模型,挖掘多源文本數據集中的信息是非常有必要的。
用傳統的主題模型挖掘多源文本數據集的文本信息有很多困難,比如說:1)多個數據源的主題的詞分布相似但不相同。例如,新聞網站的文章傾向于用標準術語描述一個主題,而社交媒體文檔中的詞匯則更隨意。因此,直接采用傳統的主題模型挖掘來解決多源文檔的聚類問題是不可行的,因為不同來源的主題的書寫風格差異嚴重影響了文檔的聚類性能。2)估計聚類數K對于多源文檔聚類也是困難的。對于大多數傳統的文檔聚類方法來說,K被認為是用戶事先確定的一個參數,但在動手前提供正確的K值是困難和不切實際的。此外,對于不同的數據源,K通常是不同的,這大大增加了估計正確K的難度。不恰當的K個數會誤導聚類過程,導致文檔聚類性能下降。因此,如果多源文檔聚類方法能夠自動地了解每個數據源的聚類數K,這是很有用的。3)傳統的文檔聚類方法假設每個數據源的主題分布不同。例如,AIJNewsweek大部分主題聚焦在“政治新聞”、“技術新聞”、“商業新聞”等在內的新聞類別,而“華爾街新聞”的新聞文章則更多地與“經濟新聞”相關。每個數據源的主題比例的差異也說明了為什么每個數據源的主題數K不同。因此,自動發現源級主題比例有助于準確發現多源文檔的文檔結構。
因此,針對上述三個問題,需要一種新的針對多源文本數據的聚類方法以獲取更理想的聚類效果。
發明內容
本發明要解決的技術問題是:提供一種基于層次狄利克雷多項分配模型的多源文本聚類方法,采用兩步分層主題生成過程研究了HDMA模型。學習的主題在數據源之間共享其一般特性,同時保留數據源的本地特性。每個數據源都應用一個獨占的主題分區來學習源級別的主題強調。此外,本發明能夠自動識別多源數據集中每個數據集的文本簇數的數目,不需要提前人為設定,有效的解決了上述存在的問題。
本發明的技術方案為:一種基于層次狄利克雷多項分配模型的多源文本聚類方法,所述方法包含有如下步驟:一、從多個來源收集文本集;二、將來自多個數據源的文本信息進行文本預處理;三、基于層次狄利克雷多項分配模型構建主題模型;四、進行BlockedGibbs采樣并更新參數β;五、根據采樣結果進行文本聚類。
所述步驟二中,預處理方法是進行分詞,去停用詞、低頻詞及標點數字。
所述步驟三中,構建的多源主題模型文本生成步驟為:
1)對于每個主題k:
A.選擇βk,i~N(μ,σ2I),i=1,2,…,V
B.對于每個數據源s:
選擇
2)對于每一個數據源s:
C.選擇
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于貴州大學,未經貴州大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010570969.8/2.html,轉載請聲明來源鉆瓜專利網。





