[發(fā)明專利]增強BTM主題模型主題詞語義相關性和主題凝聚度方法有效
| 申請?zhí)枺?/td> | 201711487139.3 | 申請日: | 2017-12-29 |
| 公開(公告)號: | CN108182176B | 公開(公告)日: | 2021-08-10 |
| 發(fā)明(設計)人: | 謝珺;李思宇;谷興龍;楊云云;續(xù)欣瑩 | 申請(專利權)人: | 太原理工大學 |
| 主分類號: | G06F40/30 | 分類號: | G06F40/30;G06F40/289 |
| 代理公司: | 太原市科瑞達專利代理有限公司 14101 | 代理人: | 盧茂春 |
| 地址: | 030024 山西*** | 國省代碼: | 山西;14 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 增強 btm 主題 模型 主題詞 語義 相關性 凝聚 方法 | ||
1.增強BTM主題模型主題詞語義相關性和主題凝聚度方法,包括下述內(nèi)容:
(1)文本語料獲取以及預處理:即從電商在線評論中,通過爬蟲程序?qū)⑹謾C商品里面的評論抓取下來,然后通過分詞程序以及停用詞詞表,對語料進行預處理;
(2)詞向量模型構建:利用大規(guī)模的語料,訓練語義相關的詞向量,確定詞向量的維度,選擇合適維度的詞向量;
(3)BTM主題模型的建模:即用吉布斯采樣算法,提取語料中的文檔-主題矩陣A以及主題-主題詞矩陣B;
(4)詞語之間語義相關性計算:即用已經(jīng)建立好的詞向量模型,通過余弦距離,計算出每條短文本商品評論中,通過分詞之后的,任意兩個詞語之間的語義相關性,并選取合適的主題詞語義距離閾值C,主題詞語義距離閾值C的取值范圍為0~1;然后在吉布斯采樣中將不同語義距離的詞語擴展不同的相關詞語數(shù)量;
(5)結合雙詞語義相關的主題模型的建模:即將語義距離閾值C作為篩選條件,選擇不同數(shù)量的相關詞語融入到主題模型吉布斯采樣的過程中,實現(xiàn)雙詞BTM主題模型的構建;其特征在于具體步驟是:
步驟1:利用word2vec計算語義距離;
步驟2:確定語義距離閾值C以及利用Nbz=Nbz+γ*10對詞對數(shù)量進行擴展,Nbz表示的意思在主題Z下采樣詞對b的次數(shù);
步驟3:利用下述公式進行Gibbs吉布斯采樣主題更新;
β為狄利克雷分布,α為狄利克雷分布,是θ的超參數(shù);如果不滿足語義距離閾值C,則用進行Gibbs采樣主題更新,X-b表示去除詞對b之外的詞對,K代表主題個數(shù),M為語料庫中不相同詞語的個數(shù),不考慮重復的詞語,nz表示主題Z的個數(shù),nω|z表示主題Z下詞ω出現(xiàn)的次數(shù),nb|z表示主題Z下詞對b出現(xiàn)的次數(shù);
步驟4:計算語料庫級的主題多項分布θz:
計算每個主題下的詞分布
步驟5:采用主題凝聚度TC(t;B(t))和js距離值進行檢驗,
主題凝聚度TC(t;B(t))值:
其中,N(b)表示包含詞對b的文檔的數(shù)目;N(a,b)表示存在詞對a和b共現(xiàn)的文檔數(shù)目;表示主題t下概率最大的M個詞對;
p和q分別表示不同主題下的主題-詞分布,i表示主題-詞分布的數(shù)量;
JS距離值:Js=1/2*KL(p||m)+1/2*KL(q||m),
m=(p+q)/2,
m表示平均分布的KL距離,Js表示根據(jù)平均距離算出的KL距離。
2.根據(jù)權利要求1所述的增強BTM主題模型主題詞語義相關性和主題凝聚度方法,其特征在于步驟2中如果不滿足語義距離閾值C,則用Nbz=Nbz+1對詞對數(shù)量進行擴展。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于太原理工大學,未經(jīng)太原理工大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業(yè)授權和技術合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201711487139.3/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。





