[發明專利]一種基于信息熵的主題模型優化方法在審
| 申請號: | 201810029097.7 | 申請日: | 2018-01-12 |
| 公開(公告)號: | CN108090231A | 公開(公告)日: | 2018-05-29 |
| 發明(設計)人: | 孫新;申長虹;唐正;姚晶旭;張穎捷;歐陽童 | 申請(專利權)人: | 北京理工大學 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30;G06F17/27 |
| 代理公司: | 北京理工正陽知識產權代理事務所(普通合伙) 11639 | 代理人: | 王民盛 |
| 地址: | 100081 *** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 主題模型 文檔內容 信息熵 特征詞項 相關度 構建 優化 主題關鍵詞 主題語料庫 文本分類 有效聚合 主題詞庫 主題特征 閾值條件 非獨立 互信息 統計量 挖掘 分類 | ||
本發明公開了一種基于信息熵的主題模型優化方法,屬于文本分類技術領域。本發明的主要技術方案為:涉及一種主題模型的構建和利用所構建的主題模型計算文檔內容的主題相關度,具體利用信息熵和互信息,從主題語料庫中挖掘出能唯一表征主題的特征詞項,將滿足閾值條件的特征詞項作為主題詞庫,訓練主題模型,計算文檔內容的主題相關度。本發明尤其適用于主題關鍵詞項彼此依賴的文檔內容主題相關度計算,根據信息熵等統計量能夠挖掘出高粒度、強特征的主題特征詞項,有效聚合特征詞項,實現非獨立主題的文檔內容優化分類。
技術領域
本發明涉及一種基于信息熵的主題模型優化方法,屬于文本分類技術領域。
背景技術
近年來,海量數據信息在給人們帶來極大便利的同時,也同樣給信息的分析和查找帶來了巨大挑戰。在大數據背景下,如何從海量數據中快速地獲取所需要的信息成為人們迫切需要解決的問題。
數據的形式復雜多樣,相較于視頻、音頻這樣形象化的數據形式,文本數據是抽象的且凝練度最高的數據形式。在機器學習與自然語言處理領域,常常需要從大量文本中挖掘出文本詞項中蘊含的潛在語義關系。以往信息檢索網站通過淺層語義分析對文本內容進行初步的語義分析,確定該文檔與搜索主題之間的相關性,但是隨著社會和技術的不斷發展,人們希望以“即問即答”的方式快速得到準確的答案,這樣頻繁且高效的人機交互模式促使機器需要對文本語義有更深層次的分析與理解能力。
通過主題模型的學習和預測,可以獲得文本的主題分布,實現文本聚類、分類、檢索、擴展、推薦等任務,以及應用于文本挖掘、情感分析、推薦系統、數字圖書、輿情監測、數據獲取、社交網站以及個性化檢索等領域。
傳統的主題表示模型主要有布爾模型、向量空間模型、概率模型和語言模型等。布爾模型用一個主題關鍵詞集合來表示特定主題,只要計算關鍵詞集合的交集,即可判斷文檔與主題的相關程度。布爾模型雖然易于實現,但是它沒有考慮到關鍵詞的權重,無法準確計算相似性,二元結果無法有效區分主題相關度。向量空間模型的出現彌補了布爾模型認為所有關鍵詞同等重要的缺陷,改進關鍵詞權重的二元取值,定量細分不同關鍵詞對主題的不同貢獻。但是向量空間模型沒有考慮詞項的語義信息,在語義理解上無法判斷詞項不同而語義相關的文本內容。
由于文檔語義與文檔主題的緊密關系,從文檔生成角度考慮如何對文檔主題進行建模的方法應運而生。PLSA(Probabilistic Latent Se-mantic Analysis)主題模型是從頻率學派的角度出發對文檔生成過程建模,頻率學派認為模型參數雖然未知但卻固定不變,可以應用極大似然估計等方法計算得到。與頻率學派截然相反的貝葉斯學派認為既然參數未知,那么參數也是一個隨機變量,也服從相應的分布。如果在PLSA模型的基礎上為參數加上相應的先驗分布,便得到了LDA(Latent Dirichlet Allocation)主題模型。
LDA作為完全的生成式概率統計主題模型,具有特征詞、主題和文檔三層貝葉斯網絡結構,通過對語料庫建模,挖掘出語料庫中潛在的語義信息。隨著LDA模型的發展和應用,基于LDA的拓展模型也逐漸被提出。為了更好地發現隱含主題之間的相關性信息,CTM模型使用邏輯-正態分布替代LDA模型中的Dirichlet分布;PAV模型利用有向無環圖表示主題之間隱含的語義信息,從而能更有效地挖掘出主題之間存在的層次結構關系;SLDA模型通過加入類標簽,使主題結構信息的構建和預測變得更加準確。上述擴展模型充分利用了LDA模型對文本強大的表示能力。相比于其他主題模型,LDA將概率理論引入到模型中,結構層次清晰,符合文本實際情況,在大數據環境下有強大的語義類別特性,同時,通過Dirichlet分布構造主題層和特征詞層,可以快速處理龐大的主題語料庫,有效避免訓練過程中過擬合的情況。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京理工大學,未經北京理工大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810029097.7/2.html,轉載請聲明來源鉆瓜專利網。





