[發(fā)明專利]酒店情感詞典的建立方法、評論的情感分析方法及系統(tǒng)在審
| 申請?zhí)枺?/td> | 201610149697.8 | 申請日: | 2016-03-16 |
| 公開(公告)號: | CN107203520A | 公開(公告)日: | 2017-09-26 |
| 發(fā)明(設(shè)計)人: | 李鳴;雷云奔;徐志廣;張宏俊;朱夢堯;吳波 | 申請(專利權(quán))人: | 中國科學(xué)院上海高等研究院 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30;G06F17/27 |
| 代理公司: | 上海光華專利事務(wù)所31219 | 代理人: | 王再朝 |
| 地址: | 201210 *** | 國省代碼: | 上海;31 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 酒店 情感 詞典 建立 方法 評論 分析 系統(tǒng) | ||
1.一種酒店領(lǐng)域?qū)S们楦性~典的建立方法,其特征在于,所述酒店領(lǐng)域?qū)S们楦性~典包括:酒店定制情感詞典、網(wǎng)絡(luò)術(shù)語情感詞典、否定詞詞典、和程度副詞詞典,其中,所述方法包括:
建立所述酒店定制情感詞典,包括:抓取消費者對于酒店的網(wǎng)絡(luò)評論;從所述網(wǎng)絡(luò)評論中提取形容詞、和/或副詞作為候選詞;保留預(yù)設(shè)基礎(chǔ)情感詞典中未收錄的各所述候選詞;從保留的候選詞中選擇至少一個正面候選詞構(gòu)成正面基準詞集合、和至少一個負面候選詞構(gòu)成負面基準詞集合;根據(jù)所述正面基準詞集合和所述負面基準詞集合,通過點互信息法確定各所述候選詞的定制正、負面極性后加以存儲;
建立所述網(wǎng)絡(luò)術(shù)語情感詞典,包括:采集所述預(yù)設(shè)基礎(chǔ)情感詞典中未收錄且用于表示情感的正面網(wǎng)絡(luò)流行詞語、和負面網(wǎng)絡(luò)流行詞語,并加以存儲;
建立所述否定詞詞典,包括:收集各否定詞,并加以存儲;
建立所述程度副詞詞典,包括:收集各程度副詞,并加以存儲。
2.根據(jù)權(quán)利要求1所述的酒店領(lǐng)域?qū)S们楦性~典的建立方法,其特征在于,所述預(yù)設(shè)基礎(chǔ)情感詞典包括:基礎(chǔ)正面情感詞典、和基礎(chǔ)負面情感詞典。
3.根據(jù)權(quán)利要求1所述的酒店領(lǐng)域?qū)S们楦性~典的建立方法,其特征在于,分別設(shè)置所述酒店領(lǐng)域?qū)S们楦性~典中相關(guān)正面詞語的第一強度值;相關(guān)負面詞語、及所述否定詞的第二強度值;以及各所述程度副詞的各第三強度值,并加以存儲。
4.一種酒店評論的細粒度情感分析方法,其特征在于,包括:
抓取消費者對于酒店的評論數(shù)據(jù);
從所述評論數(shù)據(jù)的評論內(nèi)容中提取關(guān)于酒店評價項目的特征詞語,其中,所述特征詞語包括:名詞、或名詞詞組;
從所述評論內(nèi)容中識別出含有所述特征詞語的單句作為觀點句;
從所述觀點句中提取形容詞、和/或副詞與權(quán)利要求3所述的酒店領(lǐng)域?qū)S们楦性~典的建立方法中建立的酒店領(lǐng)域?qū)S们楦性~典中的詞語匹配并返回相應(yīng)的強度值,據(jù)以計算各所述觀點句的情感分;
根據(jù)各所述觀點句的情感分計算所述評論內(nèi)容的情感分。
5.根據(jù)權(quán)利要求4所述的酒店評論的細粒度情感分析方法,其特征在于,所述從所述評論數(shù) 據(jù)的評論內(nèi)容中提取關(guān)于酒店評價項目的特征詞語之前,還包括文本預(yù)處理方法:
將所述評論內(nèi)容分成各個單句;
將所述各個單句分成各個詞語;
標記所述各個詞語的詞性;
排除停用的詞語。
6.根據(jù)權(quán)利要求5所述的酒店評論的細粒度情感分析方法,其特征在于,還包括:
檢測所述各個單句中是否存在重復(fù)次數(shù)大于預(yù)設(shè)重復(fù)閾值的特征詞語;
若是,則分別構(gòu)建重復(fù)的特征詞語的集合作為各候選特征集;
通過APRIORI算法從各所述候選特征集中產(chǎn)生各頻繁特征集,并以各所述頻繁特征集中詞語的特征作為各標識詞語;
從所述評論內(nèi)容中識別出含有各所述標識詞語的單句作為各觀點句;
從各所述觀點句中提取形容詞、和/或副詞與權(quán)利要求3所述的酒店領(lǐng)域?qū)S们楦性~典的建立方法中建立的酒店領(lǐng)域?qū)S们楦性~典中的詞語匹配并返回相應(yīng)的強度值,據(jù)以計算各所述觀點句的情感分;
根據(jù)各所述觀點句的情感分計算所述評論內(nèi)容的情感分。
7.根據(jù)權(quán)利要求4或6所述的酒店評論的細粒度情感分析方法,其特征在于,還包括:
從所述評論數(shù)據(jù)中獲取消費者的類型;
按照各所述類型對各所述評論數(shù)據(jù)分類;
計算得到各所述類型的相應(yīng)評論內(nèi)容的情感分。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于中國科學(xué)院上海高等研究院,未經(jīng)中國科學(xué)院上海高等研究院許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201610149697.8/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。





