[發明專利]增強BTM主題模型主題詞語義相關性和主題凝聚度方法有效
| 申請號: | 201711487139.3 | 申請日: | 2017-12-29 |
| 公開(公告)號: | CN108182176B | 公開(公告)日: | 2021-08-10 |
| 發明(設計)人: | 謝珺;李思宇;谷興龍;楊云云;續欣瑩 | 申請(專利權)人: | 太原理工大學 |
| 主分類號: | G06F40/30 | 分類號: | G06F40/30;G06F40/289 |
| 代理公司: | 太原市科瑞達專利代理有限公司 14101 | 代理人: | 盧茂春 |
| 地址: | 030024 山西*** | 國省代碼: | 山西;14 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 增強 btm 主題 模型 主題詞 語義 相關性 凝聚 方法 | ||
增強BTM主題模型主題詞語義相關性和主題凝聚度方法,屬于文本挖掘和機器學習的交叉領域,包括下述內容:(1)文本語料獲取以及預處理;(2)詞向量模型構建;(3)BTM主題模型的建模;(4)詞語之間語義相關性計算;(5)結合雙詞語義相關的主題模型的建模。本發明的雙詞擴展的主題模型在主題凝聚度TC值以及Js距離值上都比傳統的主題模型有明顯的提高。
技術領域
本發明屬于文本挖掘和機器學習的交叉領域,具體涉及文本主題模型與詞向量計算模型,尤其涉及到文本主題模型的主題詞語義增強以及在短文本商品評論中的應用。
背景技術
現代社會購物是人們一種不可替代的生活方式,而通過電商進行購物更是其中一條極其重要的途徑,大到家用電器,小到鍋碗瓢盆,各種商品應有盡有。但是對于如何選擇要購買的商品,消費者一般的步驟為,首先選擇自己要購買的商品的種類,然后看具體某個商品的商品詳情,最后查看商品評論,參考已買過的人的建議,選擇自己是否要購買此商品。以上三個步驟就是購買商品的大體過程,但是對于某些商品來說,商品評論特別多,一一查看明顯費時費力,并且得出的結果也不盡相同,并且針對商品的某個具體屬性,無法做到有針對性的查找。
針對文本挖掘的算法主題模型來說,專家有很多的解決辦法,但是對于將其應用到商品短文本評論這一關鍵問題上,這些方法仍存在一些問題,主要有:
1)雖然現在有很多學者利用BTM主題模型來處理短文本評論,但是該模型提取出的主題詞主要是基于詞共現的方式,缺乏深層的語義相關性。
2)在主題表征方面,傳統BTM主題模型無法明顯的看出究竟是什么主題,也就是主題內部的語義表達不是特別突出,造成最后的主題凝聚度偏低。
由此可見,現有的文本主題模型,在主題詞語義相關性和主題凝聚度等方面存在問題,尚無法解決短文本主題挖掘這一問題。
發明內容
本發明提供主題詞語義相關性以及主題凝聚度高的一種應用于短文本商品評論的主題模型的改進方法。
本發明的技術方案,一種用于增強BTM主題模型主題詞語義相關性和主題凝聚度的方法:
(1)文本語料獲取以及預處理:即從電商在線評論中,通過爬蟲程序將手機商品里面的評論抓取下來,然后通過分詞程序以及停用詞詞表,對語料進行預處理。
(2)詞向量模型構建:利用大規模的語料,訓練語義相關的詞向量,確定詞向量的維度,選擇合適維度的詞向量。
(3)BTM主題模型的建模,即用吉布斯采樣算法,提取語料中的文檔-主題矩陣A以及主題-主題詞矩陣B。
(4)詞語之間語義相關性計算,即用已經建立好的詞向量模型,通過余弦距離,計算出每條短文本商品評論中,通過分詞之后的,任意兩個詞語之間的語義相關性,并選取合適的語義距離值C,C的取值范圍為0~1.
(5)結合雙詞語義相關的主題模型的建模,即將語義距離值C作為篩選條件,選擇不同數量的相關詞語融入到主題模型吉布斯采樣的過程中,實現雙詞BTM主題模型的構建。
所述的BTM主題模型的建模是由晏小輝等人于2013年提出,方式如下:
步驟1:對每一個主題Z,描述確定主題Z下的詞分布φ~Dir(β),φ為每個主題下的詞分布,β狄利克雷分布,φ的超參數;
步驟2:對短文本語料庫L,描述一個語料庫級別的主題分布θ~Dir(α),θ為語料庫級的主題多項分布;α為狄利克雷分布,是θ的超參數;
步驟3:對于詞對|B|里的每一個詞對按照以下步驟產生,假設一個詞對用b來表示,則b=(bi,bj):
i.從語料庫級別的主題分布θ中抽取一個主題Z,即Z~Muli(θ)
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于太原理工大學,未經太原理工大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201711487139.3/2.html,轉載請聲明來源鉆瓜專利網。





