[發明專利]一種基于DMA模型和特征劃分多源文本主題模型聚類方法在審
| 申請號: | 202010570956.0 | 申請日: | 2020-06-22 |
| 公開(公告)號: | CN111813934A | 公開(公告)日: | 2020-10-23 |
| 發明(設計)人: | 秦永彬;許偉佳;黃瑞章;陳艷平 | 申請(專利權)人: | 貴州大學 |
| 主分類號: | G06F16/35 | 分類號: | G06F16/35;G06F40/284 |
| 代理公司: | 貴陽中新專利商標事務所 52100 | 代理人: | 張成 |
| 地址: | 550025 貴州省貴*** | 國省代碼: | 貴州;52 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 dma 模型 特征 劃分 文本 主題 方法 | ||
本發明公開了一種基于DMA模型和特征劃分多源文本主題模型聚類方法,所述方法包含有如下步驟:一、從多個來源收集文本集;二、將來自多個數據源的文本信息進行文本預處理;三、基于DMA模型和特征劃分構建多源主題模型;四、進行Blocked Gibbs采樣并更新參數;五、根據采樣結果進行文本聚類。本發明通過更新多源文本的主題?詞分布的先驗參數,改善了多源文本的聚類效果;本發明能夠自動判別每個數據源文本中簇的數目,而不需要人為提前給定;每個數據源擁有各自的主題分布、主題?特征詞分布以及噪音詞分布參數,因此本發明能保留多源文本中每個數據源的主題熱點以及用詞特點。
技術領域
本發明涉及一種模型聚類方法,尤其涉及一種基于DMA模型和特征劃分多源文本主題模型聚類方法,屬于機器學習和自然語言處理技術領域。
背景技術
隨著Internet技術的飛速發展,越來越多的應用可以產生文本信息,本文將多個應用產生的文本數據集稱之為多源文本數據集。從多源文本數據集中挖掘其主題信息以及文本結構對于很多應用程序都是非常有必要的。例如,新聞熱點分析的應用可以發現來自各種新聞網站、論壇和社交媒體的文本信息,以了解社會關注的熱點問題。人們通過分析市民熱線、交通公告牌等各種來源的交通信息,發現突發交通事故。主題模型是目前較為流行的文本挖掘方法之一。因此,有必要研究一種多源文檔主題模型,挖掘多源文本數據集中的文本信息。
用傳統的主題模型挖掘多源文本數據集的信息有很多困難,比如說:1)在多源文本數據集中,每一篇文檔都由大量的詞來表示,包括特征詞和大量的無關噪聲詞。而且由于書寫風格的偏向,來自不同數據源的噪聲詞不同。不相關的噪聲詞會干擾模型的構建,影響模型性能。2)每個數據源相同主題的詞分布相關但不相同。例如,新聞網站的文章傾向于用標準術語描述一個主題,而社交媒體文檔中的詞匯則更隨意。因此,直接采用傳統的主題模型挖掘多源文本的詞特征等信息是不可行的,因為不同來源的主題的書寫風格差異以及描述角度的不同嚴重影響了模型的性能。3)在多源文本數據集中估計簇類數N也是困難的。對于大多數傳統的主題模型來說,N被認為是用戶事先確定的一個參數,但在挖掘前提供正確的N值是困難和不切實際的。此外,對于不同的數據源,N通常是不同的,這大大增加了估計正確N的難度。因此,如果多源文本主題模型能夠自動地估計每個數據源的聚類數N,對于模型的推廣和應用是非常有用的。
因此,針對上述三個問題,需要研究一種新的針對多源文本數據的主題模型以挖掘準確的信息。
發明內容
本發明要解決的技術問題是:提供一種基于DMA模型和特征劃分多源文本主題模型聚類方法,它能挖掘多源文本數據集中每個數據源的結構信息,還能自動推斷每個數據源各自的文本簇類數目N,而不需要人為提前給定,有效的解決了上述存在的問題。
本發明的技術方案為:一種基于DMA模型和特征劃分多源文本主題模型聚類方法,所述方法包含有如下步驟:一、從多個來源收集文本集;二、將來自多個數據源的文本信息進行文本預處理;三、基于DMA模型和特征劃分構建多源主題模型;四、進行Blocked Gibbs采樣并更新參數λ;五、根據采樣結果進行文本聚類。
所述步驟二中,預處理方法是進行分詞,去停用詞、低頻詞及標點數字。
所述步驟三中,構建的多源主題模型的文本生成過程為:
對于每個數據源χs∈{χ1,χ2,...,χS}:
a)選擇γjs|ωs~B(1,ωs),j=1,2,...,W
b)選擇η0s|β~Dirichlet(β1,...βW)
c)選擇
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于貴州大學,未經貴州大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010570956.0/2.html,轉載請聲明來源鉆瓜專利網。





