[發(fā)明專利]一種基于主題模型的面向?qū)嶓w的文本情感分析方法在審
| 申請?zhí)枺?/td> | 201910738217.5 | 申請日: | 2019-08-12 |
| 公開(公告)號: | CN110866087A | 公開(公告)日: | 2020-03-06 |
| 發(fā)明(設(shè)計)人: | 駱祥峰;黃敬;付雪峰 | 申請(專利權(quán))人: | 上海大學(xué);阿里巴巴集團控股有限公司 |
| 主分類號: | G06F16/33 | 分類號: | G06F16/33;G06F40/279;G06F40/30;G06F40/284 |
| 代理公司: | 上海上大專利事務(wù)所(普通合伙) 31205 | 代理人: | 陸聰明 |
| 地址: | 200444*** | 國省代碼: | 上海;31 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 主題 模型 面向 實體 文本 情感 分析 方法 | ||
1.一種基于主題模型的面向?qū)嶓w的文本情感分析方法,其特征在于,具體步驟如下:
(1)、輸入待情感分析的文本語料集合;
(2)、從文本集中提取文本的實體集、詞集和實體-詞關(guān)系;
(3)、利用主題模型對文本中的實體,主題,情感,實體評價詞的四元層次關(guān)系建模,并嵌入實體-詞關(guān)系作為監(jiān)督信息以約束模型對輸入文本集中的每個單詞進行情感、實體和主題標簽采樣;
(4)、推導(dǎo)情感與實體之間的概率矩陣η以及實體、主題與詞之間的概率矩陣ψ的具體數(shù)學(xué)表達式,并在模型收斂時依據(jù)推導(dǎo)的數(shù)學(xué)表達式計算概率矩陣η和ψ中的每個元素值;
(5)、輸出情感分析結(jié)果。
2.根據(jù)權(quán)利要求1所述的基于主題模型的面向?qū)嶓w的文本情感分析方法,其特征在于,所述步驟(2)的具體過程如下:
(2-1)、利用中文切詞工具Ansj對文本集進行切詞處理并去除停用詞,僅保留名詞、形容詞、副詞、動詞;
(2-2)、利用命名實體識別工具Stanford NER為每篇文本進行命名實體識別,并選擇保留所需情感分析的實體類型;
(2-3)、利用以下公式計算實體e和單詞w的相關(guān)性大小,并選取相關(guān)性超過一定閾值μ的實體-詞對作為提取的實體-詞關(guān)系集合EW(e,w):
(2-4)、剔除低頻詞、低頻實體。
3.根據(jù)權(quán)利要求1所述的基于主題模型的面向?qū)嶓w的文本情感分析方法,其特征在于,所述步驟(3)的具體過程如下:
(3-1)、基于主題模型對文本中的實體,主題,情感,實體評價詞四元層次關(guān)系建模,并推導(dǎo)出為文檔d的第i個單詞wi=m分配給主題標簽zi=k,實體標簽ei=h,情感標簽li=j(luò)的概率的數(shù)學(xué)公式如下;
其中,下標-i表示在推導(dǎo)上述概率時,只需從除文檔d中第i個單詞外的其它文檔集D中的單詞被分配的實體標簽主題標簽和情感標簽向量中統(tǒng)計相關(guān)參數(shù)值;在此前提下:表示文檔d中被分配了情感標簽j的單詞總數(shù);表示文檔集D中被分配了實體標簽h和情感標簽j的單詞總數(shù);表示文檔集D中被分配了主題標簽z和情感標簽j的單詞總數(shù);表示文檔集D中單詞m被同時分配了實體標簽h和主題標簽z的總數(shù);表示文檔d中被分配了情感標簽l’從1到L的單詞總數(shù);表示文檔集D中被分配了情感標簽j的同時被分配了實體標簽e’從1到E的單詞總數(shù);表示文檔集D中被分配了情感標簽j的同時被分配了主題標簽z’從1到K的單詞總數(shù);表示文檔集D中被同時分配了實體標簽h和主題標簽k的單詞總數(shù);其中,文檔集D中一共有L個情感標簽,E個實體標簽,K個主題標簽,V個不重復(fù)的單詞;Ed表示從文檔d中提取的實體集;α,β,λ,α0為模型參數(shù);
(3-2)、依據(jù)(3-1)計算的概率隨機采樣主題標簽和情感標簽,將步驟(2)中提取的實體-詞關(guān)系集合EW(e,w)作為監(jiān)督信息;如果一個或者多個實體e與單詞m組成的實體-詞關(guān)系對存在于EW(e,w)中,則約束模型優(yōu)先在這些實體中為單詞m隨機采樣一個實體標簽e,否則依據(jù)(3-1)中計算的概率在全部實體集中隨機采樣一個實體標簽e。
4.根據(jù)權(quán)利要求1所述的基于主題模型的面向?qū)嶓w的文本情感分析方法,其特征在于,所述步驟(4)的具體其過程如下:
(4-1)、推導(dǎo)出利用下式求解情感與實體之間概率矩陣η,并在模型收斂時計算概率矩陣η中的每個元素值:
其中,Nle是情感標簽l和實體標簽e被分配給文檔集D中所有單詞的總次數(shù),Nl則是情感標簽l被分配給文檔集D中所有單詞的總次數(shù),E為從文檔集D中提取的不重復(fù)的實體數(shù),α為先驗設(shè)置參數(shù);
(4-2)、推導(dǎo)出利用下式求解實體&主題與詞項之間的概率矩陣ψ,并在模型收斂時計算概率矩陣ψ中的每個元素值:
其中Nezv是單詞v被分配了實體標簽e和主題標簽z的總次數(shù),Nez則是實體標簽e和主題標簽z與文檔集D中所有單詞關(guān)聯(lián)的總次數(shù),V為從文檔集D中提取的不重復(fù)的單詞數(shù),α0為先驗設(shè)置參數(shù)。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于上海大學(xué);阿里巴巴集團控股有限公司,未經(jīng)上海大學(xué);阿里巴巴集團控股有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910738217.5/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 上一篇:裝配過程的自動監(jiān)督和檢查
- 下一篇:車輛用攝像單元





