[發明專利]一種基于中文語義結構和細分詞庫結合的情感分析方法有效
| 申請號: | 201510525999.6 | 申請日: | 2015-08-25 |
| 公開(公告)號: | CN105095190B | 公開(公告)日: | 2018-01-12 |
| 發明(設計)人: | 施建旭;王新蕾 | 申請(專利權)人: | 眾聯數據技術(南京)有限公司 |
| 主分類號: | G06F17/27 | 分類號: | G06F17/27 |
| 代理公司: | 北京智為時代知識產權代理事務所(普通合伙)11498 | 代理人: | 王加嶺 |
| 地址: | 210000 江蘇省南*** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 中文 語義 結構 細分 詞庫 結合 情感 分析 方法 | ||
1.一種基于中文語義結構和細分詞庫結合的情感分析方法,其特征在于,所述情感分析方法包括:
1)在計算機系統中輸入至少由一個語句組成的待測文本;
2)通過計算機系統的分詞模塊對待測文本的每一語句進行分詞處理,標注每一語句中的情感詞和其它詞,其中,
所述分詞模塊通過計算機中存儲的字典,標注每一語句中的情感詞和其它詞,所述字典中詞匯被分類為情感詞類和其它詞類;
所述字典中情感詞匯的分類標注表如下:
所述字典中其它詞類標注表如下:
3)通過計算機系統的語義模式匹配模塊,對經分詞處理的待測文本進行匹配,得到每一語義單元的語義模式,其中,所述語義單元是指待測文本的每一語句中能夠匹配語義模式的文本片段;
所述語義模式匹配表包括:
4)通過計算機系統的情感分析模塊,將待測文本的每一語義單元的語義模式對應為情感值,
并將文本中所有語義單元的情感值進行累加,得到待測文本的情感值,其中,
當某一語句中出現沒有匹配語義模式的剩余的否定詞時,該語句中否定詞之后的語義單元的情感值×(-1),再參與所述文本中所有語義單元的情感值累加的計算;
當某一語句中出現沒有匹配語義模式的剩余的反轉詞時,該語句中反轉詞之后的語義單元的情感值×2,再參與所述文本中所有語義單元的情感值累加的計算;
當某一語句中出現沒有匹配語義模式的剩余的否定詞和反轉詞時,該語句中否定詞和反轉詞之后的語義單元的情感值×(-1)×2,再參與所述文本中所有語義單元的情感值累加的計算;
5)當待測文本的情感值大于1的時候,判定待測文本的情感值為正面,標注為1,
當待測文本的情感值小于1的時候,判定待測文本的情感值為負面,標注為-1,
無模式匹配或疊加情感為0時,判定待測文本的情感為中性,標注為0。
2.根據權利要求1所述的情感分析方法,其特征在于,所述待測文本包括以唯一句子結束符結尾的待測文本或者含有多個句子結束符的待測文本;
所述待測文本的輸入采用網絡爬蟲在網絡中抓取、切分得到。
3.根據權利要求1所述的情感分析方法,其特征在于,所述字典還包括從爬蟲抓取的近五萬條財經評論短文本的網絡常用財經詞匯和其他網絡情感術語。
4.根據權利要求1所述的情感分析方法,其特征在于,所述分詞模塊采用雙向最大匹配算法識別待測文本中長短詞匯或短語。
5.根據權利要求1所述的情感分析方法,其特征在于,所述語義模式匹配模塊采用最右優先匹配算法:從待測文本中語句的END結束符開始,自右向左掃描整個語句,與語義模式匹配表中預設的模式進行匹配。
6.根據權利要求1所述的情感分析方法,其特征在于,采用最長匹配的原則,即匹配語義模式匹配表中的長模式,得到模式對應的情感值。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于眾聯數據技術(南京)有限公司,未經眾聯數據技術(南京)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201510525999.6/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:信息處理方法以及信息處理裝置
- 下一篇:對用戶評價進行處理的方法及裝置





