[發(fā)明專利]基于主體模型的網(wǎng)上評論情感分類方法有效
| 申請?zhí)枺?/td> | 201410389465.0 | 申請日: | 2014-08-08 |
| 公開(公告)號: | CN104199845B | 公開(公告)日: | 2018-05-29 |
| 發(fā)明(設(shè)計(jì))人: | 姜明;王建;陳嬋;王興起;張旻;湯景凡;胡宏宇 | 申請(專利權(quán))人: | 杭州電子科技大學(xué) |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30;G06F17/27 |
| 代理公司: | 杭州君度專利代理事務(wù)所(特殊普通合伙) 33240 | 代理人: | 黃前澤 |
| 地址: | 310018 浙*** | 國省代碼: | 浙江;33 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 情感分類 網(wǎng)上評論 主體模型 評論 標(biāo)點(diǎn)符號 建立模型 模型參數(shù) 模型應(yīng)用 人稱代詞 中文分詞 分詞 網(wǎng)站 文檔 去除 雙手 分類 | ||
1.基于主體模型的網(wǎng)上評論情感分類方法,其特征在于包括如下步驟:
步驟(1)提取網(wǎng)站的評論,具體是:分析某門戶網(wǎng)站以及某購物網(wǎng)站網(wǎng)頁源代碼,利用正則表達(dá)式獲取評論欄,記錄該評論屬于哪一類別,并按照每類每條評論一個文本文件存儲;
步驟(2)使用中文分詞包對評論進(jìn)行分詞,具體是:選定中文分詞包以及分詞方法,選定要求是盡可能的保持原文的語義環(huán)境,這里使用的是最大粒度細(xì)分的方法;
步驟(3)去除人稱代詞、助詞、數(shù)字、字母以及標(biāo)點(diǎn)符號;
步驟(4)選定各個模型參數(shù)以及需要進(jìn)行分類的情感數(shù),具體是:
4-1、選定模型的超參數(shù)α,γ,將其設(shè)置為1;
4-2、設(shè)定模型參數(shù)T,即主題的數(shù)目;
4-3、設(shè)置另外一個超參數(shù)β,β設(shè)置為T/50;
4-4、設(shè)置情感數(shù)S,要分類的情感有兩種,即正面和負(fù)面,所以S為2;
步驟(5)建立模型,具體是:本模型在主題模型的基礎(chǔ)上加入了情感因素的考量;按照自然語言的表達(dá)習(xí)慣,假設(shè)一句話只表達(dá)一個情感值,故對句子進(jìn)行情感標(biāo)簽采樣,建立文檔-句子-情感關(guān)系;同樣的,每句話也只表達(dá)一個主題,對句子進(jìn)行主題采樣,建立文檔-句子-主題關(guān)系;
步驟(6)將步驟(5)中建立的模型應(yīng)用于評論的情感分類,具體是:
根據(jù)預(yù)處理的網(wǎng)上評論,也就是文檔生成過程的最終結(jié)果—-主題情感詞,逆向工程,求出在文檔生成過程中發(fā)揮重要作用的三個概率分布變量,主題分布θ,情感分布П和主題-情感詞分布Ψ,然后根據(jù)情感分布П來判斷每篇文檔的情感值;
使用Gibbs sampling算法來估計(jì)分布變量θ,Ψ,П,馬卡洛夫鏈的每次轉(zhuǎn)移中,第i個句子的情感標(biāo)簽和主題標(biāo)簽是根據(jù)以下的條件概率來抽取的:
其中Count(s,t)表示情感標(biāo)簽為s,主題標(biāo)簽為t的句子數(shù),下標(biāo)i表示去除當(dāng)前句子的計(jì)數(shù);z表示主題值,w表示文檔中的詞;Count(d,s)表示文檔d中情感標(biāo)簽為s的句子數(shù);Count(d)為文檔的總數(shù)量,m
其中θ為文檔的主題分布、π為文檔的情感分布、ψ為詞的分布;Count(s)為情感標(biāo)簽為s的詞的總數(shù),Count(s,d)為文檔d中情感標(biāo)簽為s的詞的總數(shù),Count(w,s,t)為情感標(biāo)簽為s,主題標(biāo)簽為t的詞的總數(shù);T為主題總數(shù),S為情感數(shù),V為文檔的單詞集大小;
將評論數(shù)據(jù)導(dǎo)入模型進(jìn)行計(jì)算,獲取模型輸出的П分布,它所代表的是每篇文檔屬于對應(yīng)S種情感的概率,根據(jù)公式:
其中S
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于杭州電子科技大學(xué),未經(jīng)杭州電子科技大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201410389465.0/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 同類專利
- 專利分類
G06F 電數(shù)字?jǐn)?shù)據(jù)處理
G06F17-00 特別適用于特定功能的數(shù)字計(jì)算設(shè)備或數(shù)據(jù)處理設(shè)備或數(shù)據(jù)處理方法
G06F17-10 .復(fù)雜數(shù)學(xué)運(yùn)算的
G06F17-20 .處理自然語言數(shù)據(jù)的
G06F17-30 .信息檢索;及其數(shù)據(jù)庫結(jié)構(gòu)
G06F17-40 .數(shù)據(jù)的獲取和記錄
G06F17-50 .計(jì)算機(jī)輔助設(shè)計(jì)
- 用于提供產(chǎn)品評論的方法、系統(tǒng)和圖形用戶界面
- 基于微內(nèi)容相似度的反垃圾方法
- 為互聯(lián)網(wǎng)上的評論生成摘錄的計(jì)算機(jī)實(shí)現(xiàn)的方法和系統(tǒng)
- 基于產(chǎn)品特征的互聯(lián)網(wǎng)評論觀點(diǎn)挖掘方法及系統(tǒng)
- 基于主體模型的網(wǎng)上評論情感分類方法
- 一種互聯(lián)網(wǎng)數(shù)據(jù)分析方法及系統(tǒng)
- 一種基于互聯(lián)網(wǎng)用戶評論的數(shù)據(jù)分析方法及系統(tǒng)
- 一種基于膠囊網(wǎng)絡(luò)的水軍商品評論虛假檢測裝置及方法
- 一種面向豆瓣網(wǎng)電影評論的情感分析方法
- 基于詞向量表征的問題評論對的構(gòu)建方法





