[發明專利]一種基于主題模型的在線評論情感挖掘方法在審
| 申請號: | 201910975438.4 | 申請日: | 2019-10-15 |
| 公開(公告)號: | CN110807315A | 公開(公告)日: | 2020-02-18 |
| 發明(設計)人: | 駱祥峰;黃敬;易亞雯 | 申請(專利權)人: | 上海大學;阿里巴巴集團控股有限公司 |
| 主分類號: | G06F40/216 | 分類號: | G06F40/216;G06F40/289;G06F40/30 |
| 代理公司: | 上海上大專利事務所(普通合伙) 31205 | 代理人: | 陸聰明 |
| 地址: | 200444*** | 國省代碼: | 上海;31 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 主題 模型 在線 評論 情感 挖掘 方法 | ||
1.一種基于主題模型的在線評論情感挖掘方法,其特征在于,具體步驟如下:
(1)輸入任意領域中的在線評論文本集;
(2)從評論文本集中為每篇文本抽取文本方面意見對,構建文本-方面意見對矩陣;
(3)構建情感主題模型;
(4)將文本-方面意見對矩陣輸入情感主題模型進行訓練;
(5)輸出評論文本情感挖掘結果。
2.根據權利要求1所述的基于主題模型的在線評論情感挖掘方法,其特征在于,所述步驟(2)中的抽取文本方面意見對,其過程如下:
(2-1)、將評論文本集中每篇評論文本按標點符號分割成評論單元,并采用分詞工具對每一個評論單元分詞、詞性標注、去停用詞,副詞一般用來修飾形容詞或動詞,因此將副詞與其修飾的部分合并成一個整體,然后將整體的詞性注釋為被修飾語的詞性;
(2-2)、按詞性匹配模式對每個評論單元進行模式匹配,抽取方面意見對,將每篇評論文本轉變成方面意見對的集合,并形成方面意見對詞對表;
(2-3)、方面意見對詞對表中每一項使用關聯強度計算公式計算其關聯強度,再根據關聯強度降序排列方面意見對項,取TopN個方面意見對項,形成文本-方面意見對矩陣;方面意見對的關聯強度計算公式如下:
其中,Co(wi,wj)代表關鍵詞wi和wj在評論文本抽取單元集合中的共現次數,DF(wi)與DF(wj)分別代表wi和wj在方面意見對集合中的詞頻。
3.根據權利要求1所述的基于主題模型的在線評論情感挖掘方法,其特征在于,所述步驟(3)的情感主題模型,其構建過程如下:
(3-1)、基于狄利克雷超參α生成語料庫的主題分布的多項式參數θ;其中α是θ所服從的狄利克雷分布的參數;
(3-2)、基于狄利克雷超參β生成語料庫的第k個主題第e個情感下詞對分布的多項式參數其中β是所服從的狄利克雷分布的參數,k、e均為正整數;
(3-3)、基于狄利克雷超參γ生成語料庫的第k個主題的情感分布的多項式參數πk;其中γ是πk所服從的狄利克雷分布的參數;
(3-4)、基于語料庫的主題分布的多項式參數θ生成第d篇文檔的第n個方面意見對的主題zdn,其中θ是zdn所服從的多項式分布的參數,d和n均為正整數;
(3-5)、基于語料庫的第k個主題的情感分布的多項式參數πk以及第d篇文檔的第n個方面意見對的主題zdn,即(πk,zdn)生成第d篇文檔的第n個方面意見對的情感sdn,其中πzdn是sdn所服從的多項式分布的參數;
(3-6)、基于語料庫的第k個主題第e個情感下詞對分布的多項式參數第d篇文檔的第n個方面意見對的主題zdn以及第d篇文檔的第n個方面意見對的情感sdn,即(zdn,sdn)生成第d篇文檔的第n個方面意見對wpdn,其中是詞對wp所服從的多項式分布的參數;
(3-7)、循環以上步驟(3-4)、(3-5)、(3-6),直至生成語料庫中的所有文檔。
4.根據權利要求1所述的基于主題模型的在線評論情感挖掘方法,其特征在于,所述步驟(4)中的將文本-方面意見對矩陣輸入情感主題模型進行訓練,具體步驟如下:
(4-1)、為文本-方面意見對矩陣中的每一項分別采樣一個主題和一個情感,多次迭代此過程,最終形成文本-主題矩陣及文本-情感矩陣;
(4-2)、根據文本-主題矩陣及文本-情感矩陣的值計算文本-主題概率分布以及主題-情感概率分布,具體計算公式如下:
其中,Nk表示文本中被指派給主題k的詞對數量,N表示文本集合所有的詞對數量,Nke表示同時被指派給主題k和情感e的詞對數量,α和γ分別表示θ和Π的共軛先驗Dirichlet分布的超參數,E是情感種類數,K是隱主題個數;
(4-3)、根據文本-主題概率分布以及主題-情感概率分布,進一步計算獲得整體情感分布狀況,其計算公式如下:
R=θk*Πke
其中,R表示在線評論集合的情感分布,是E維向量。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于上海大學;阿里巴巴集團控股有限公司,未經上海大學;阿里巴巴集團控股有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910975438.4/1.html,轉載請聲明來源鉆瓜專利網。





