[發(fā)明專利]一種基于主題模型的在線評(píng)論情感挖掘方法在審
| 申請(qǐng)?zhí)枺?/td> | 201910975438.4 | 申請(qǐng)日: | 2019-10-15 |
| 公開(公告)號(hào): | CN110807315A | 公開(公告)日: | 2020-02-18 |
| 發(fā)明(設(shè)計(jì))人: | 駱祥峰;黃敬;易亞雯 | 申請(qǐng)(專利權(quán))人: | 上海大學(xué);阿里巴巴集團(tuán)控股有限公司 |
| 主分類號(hào): | G06F40/216 | 分類號(hào): | G06F40/216;G06F40/289;G06F40/30 |
| 代理公司: | 上海上大專利事務(wù)所(普通合伙) 31205 | 代理人: | 陸聰明 |
| 地址: | 200444*** | 國(guó)省代碼: | 上海;31 |
| 權(quán)利要求書: | 查看更多 | 說(shuō)明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 主題 模型 在線 評(píng)論 情感 挖掘 方法 | ||
本發(fā)明公開了一種基于主題模型的在線評(píng)論情感挖掘方法。該方法具體步驟如下:(1)輸入任意領(lǐng)域中的在線評(píng)論文本集;(2)從評(píng)論文本集中為每篇文本抽取文本方面意見對(duì),構(gòu)建文本?方面意見對(duì)矩陣;(3)構(gòu)建情感主題模型;(4)將文本?方面意見對(duì)矩陣輸入情感主題模型進(jìn)行訓(xùn)練;(5)輸出評(píng)論文本情感挖掘結(jié)果。該方法通過(guò)采用抽取評(píng)論文本方面意見對(duì)代替?zhèn)鹘y(tǒng)的詞匯作為主題模型輸入的方法,解決了屬性詞和觀點(diǎn)詞混雜、單一詞匯情感模糊的問(wèn)題,提高了評(píng)論文本情感分析的準(zhǔn)確性和可解釋性;同時(shí)降低了文本表示的維度,削減了模型計(jì)算時(shí)間;該方法簡(jiǎn)便易操作,效果好。
技術(shù)領(lǐng)域
本發(fā)明涉及信息抽取中事件抽取領(lǐng)域,具體是涉及一種基于主題模型的在線評(píng)論情感挖掘方法。
背景技術(shù)
目前,許多研究者通過(guò)結(jié)合情感層來(lái)擴(kuò)展主題模型(LDA,Latent DirichletAllocation)的方法來(lái)分析文本情感,將文本表示成一個(gè)詞袋,詞袋由文本中的詞匯構(gòu)成。基于LDA的主題模型能夠在一定程度上有效地挖掘文本的情感。
使用傳統(tǒng)的主題模型擴(kuò)展的方式挖掘文本情感時(shí),存在以下不足:(1)把文本看成詞袋,忽略了詞匯之間的依賴關(guān)系,這樣就損失了大量的文本語(yǔ)義;(2)將文本表示成詞匯的集合,使得模型輸入維度過(guò)高,計(jì)算費(fèi)時(shí)。
發(fā)明內(nèi)容
本發(fā)明的目的在于針對(duì)傳統(tǒng)的主題模型擴(kuò)展方法挖掘文本情感的不足,提供一種基于主題模型的在線評(píng)論情感挖掘方法。采用抽取評(píng)論文本方面意見對(duì)代替?zhèn)鹘y(tǒng)的詞匯作為主題模型擴(kuò)展模型輸入的方法,解決了屬性詞和觀點(diǎn)詞混雜、單一詞匯情感模糊的問(wèn)題,提高了評(píng)論文本情感分析的準(zhǔn)確性和可解釋性;同時(shí)降低了文本表示的維度,削減了模型計(jì)算時(shí)間。
為了達(dá)到上述的目的,本發(fā)明的構(gòu)思如下:采用評(píng)論文本的方面意見對(duì)代替?zhèn)鹘y(tǒng)的詞匯作為主題模型的輸入,降低文本表示的維度,增加文本的表示的語(yǔ)義性,為模型的輸入提供更多的語(yǔ)義信息。
根據(jù)上述的發(fā)明思想,本發(fā)明采用下述技術(shù)方案:
一種基于主題模型的在線評(píng)論情感挖掘方法,具體步驟如下:
(1)輸入任意領(lǐng)域中的在線評(píng)論文本集;
(2)從評(píng)論文本集中為每篇文本抽取文本方面意見對(duì),構(gòu)建文本-方面意見對(duì)矩陣;
(3)構(gòu)建情感主題模型;
(4)將文本-方面意見對(duì)矩陣輸入情感主題模型進(jìn)行訓(xùn)練;
(5)輸出評(píng)論文本情感挖掘結(jié)果。
所述步驟(2)中的抽取文本方面意見對(duì),其過(guò)程如下:
(2-1)、將評(píng)論文本集中每篇評(píng)論文本按標(biāo)點(diǎn)符號(hào)分割成評(píng)論單元,并采用分詞工具對(duì)每一個(gè)評(píng)論單元分詞、詞性標(biāo)注、去停用詞,副詞一般用來(lái)修飾形容詞或動(dòng)詞,因此將副詞與其修飾的部分合并成一個(gè)整體,然后將整體的詞性注釋為被修飾語(yǔ)的詞性;
(2-2)、按詞性匹配模式對(duì)每個(gè)評(píng)論單元進(jìn)行模式匹配,抽取方面意見對(duì),將每篇評(píng)論文本轉(zhuǎn)變成方面意見對(duì)的集合,并形成方面意見對(duì)詞對(duì)表;
(2-3)、方面意見對(duì)詞對(duì)表中每一項(xiàng)使用關(guān)聯(lián)強(qiáng)度計(jì)算公式計(jì)算其關(guān)聯(lián)強(qiáng)度,再根據(jù)關(guān)聯(lián)強(qiáng)度降序排列方面意見對(duì)項(xiàng),取TopN個(gè)方面意見對(duì)項(xiàng),形成文本-方面意見對(duì)矩陣;方面意見對(duì)的關(guān)聯(lián)強(qiáng)度計(jì)算公式如下:
其中,Co(wi,wj)代表關(guān)鍵詞wi和wj在評(píng)論文本抽取單元集合中的共現(xiàn)次數(shù),DF(wi)與DF(wj)分別代表wi和wj在方面意見對(duì)集合中的詞頻。
所述步驟(3)的情感主題模型,其構(gòu)建過(guò)程如下:
(3-1)、基于狄利克雷超參α生成語(yǔ)料庫(kù)的主題分布的多項(xiàng)式參數(shù)θ;其中α是θ所服從的狄利克雷分布的參數(shù);
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于上海大學(xué);阿里巴巴集團(tuán)控股有限公司,未經(jīng)上海大學(xué);阿里巴巴集團(tuán)控股有限公司許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910975438.4/2.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專利網(wǎng)。
- 用于呈現(xiàn)在線實(shí)體在線狀態(tài)的系統(tǒng)和方法
- 提供web服務(wù)接入的在線系統(tǒng)和方法
- 定制在線圖標(biāo)
- 一種水質(zhì)在線檢測(cè)預(yù)處理裝置
- 在線測(cè)試學(xué)習(xí)方法、系統(tǒng)、計(jì)算機(jī)設(shè)備及存儲(chǔ)介質(zhì)
- 一種在線文檔的分頁(yè)方法、裝置、設(shè)備以及可讀介質(zhì)
- 一種基于web在線學(xué)習(xí)的資源訪問(wèn)平臺(tái)
- 一種在線學(xué)習(xí)系統(tǒng)
- 在線文檔提交方法、裝置、計(jì)算機(jī)設(shè)備和存儲(chǔ)介質(zhì)
- 空調(diào)冷媒量確定方法、系統(tǒng)和可讀存儲(chǔ)介質(zhì)





