[發明專利]一種基于信息熵的主題模型優化方法在審
| 申請號: | 201810029097.7 | 申請日: | 2018-01-12 |
| 公開(公告)號: | CN108090231A | 公開(公告)日: | 2018-05-29 |
| 發明(設計)人: | 孫新;申長虹;唐正;姚晶旭;張穎捷;歐陽童 | 申請(專利權)人: | 北京理工大學 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30;G06F17/27 |
| 代理公司: | 北京理工正陽知識產權代理事務所(普通合伙) 11639 | 代理人: | 王民盛 |
| 地址: | 100081 *** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 主題模型 文檔內容 信息熵 特征詞項 相關度 構建 優化 主題關鍵詞 主題語料庫 文本分類 有效聚合 主題詞庫 主題特征 閾值條件 非獨立 互信息 統計量 挖掘 分類 | ||
1.一種基于信息熵的主題模型優化方法,其特征在于:利用信息熵和互信息統計量從主題語料庫中挖掘出能唯一表征主題的特征詞項,選擇滿足閾值條件的特征詞項,訓練主題模型,計算文檔內容的主題相關度,區分文檔所屬的主題類別;本方法尤其適用于主題關鍵詞集合有較多交集或具有上下級包含關系的各個主題,能夠有效區分文檔所屬的主題類別;包括如下步驟:
步驟1.訓練LDA主題模型得到主題詞庫;
具體地,根據主題語料庫訓練LDA主題模型,得到主題詞庫;
步驟2.利用信息熵,從主題語料庫中挖掘出唯一表征該主題的候選特征詞項;
具體地,掃描主題語料庫,并基于左右信息熵和互信息統計量挖掘出滿足特定閾值條件的候選特征詞項;
步驟3.將候選特征詞項作為主題詞庫,訓練得到主題模型;
步驟4.計算文檔內容的主題相關度,取該文檔在預定主題上的概率分布值為其主題相關度值;
具體地,利用主題模型,取該文檔的主題分布概率值為其主題計算相關度值;
至此,從步驟1到步驟4,完成了一種基于信息熵的主題模型優化方法。
2.根據權利要求1所述的一種基于信息熵的主題模型優化方法,其特征在于:步驟1中的主題語料庫由用戶根據需要自行選擇,步驟1具體包括如下子步驟:
步驟1.1 按照概率p(d
步驟1.2 利用Dirichlet先驗分布生成文檔d
步驟1.3 根據
步驟1.4 再次利用Dirichlet先驗分布生成k=z
步驟1.5 從詞項多項分布
步驟1.6 對于文檔d
步驟1.7 對于M個文檔,再重復M-1次步驟1.1到步驟1.6,生成主題詞庫w
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京理工大學,未經北京理工大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810029097.7/1.html,轉載請聲明來源鉆瓜專利網。





