[發明專利]基于細粒度屬性分類的感情分析引擎在審
| 申請號: | 201410084332.2 | 申請日: | 2014-03-07 |
| 公開(公告)號: | CN104899231A | 公開(公告)日: | 2015-09-09 |
| 發明(設計)人: | 李臻;紀敏 | 申請(專利權)人: | 上海市玻森數據科技有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 上海申新律師事務所 31272 | 代理人: | 劉懿 |
| 地址: | 201206 上海市寶*** | 國省代碼: | 上海;31 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 細粒度 屬性 分類 感情 分析 引擎 | ||
1.基于細粒度屬性分類的感情分析引擎,其特征在于,采用的模型為最大熵模型,該系統的情感極性強度量化方法的算法思路:先利用已有的情感詞典通過字頻統計的方法,計算出每個字的情感傾向值;然后利用字的情感傾向值設計相應的公式進行詞的情感傾向值計算;步驟如下:
首先統計每個字的在情感詞典中作為褒義詞和貶義詞的權重,
其中,Pci為字ci作為褒義詞的權重,Nci為字ci作為貶義詞的權重,fpci為字ci出現在褒義詞表中的頻率,fnci為字ci出現在貶義詞表中的頻率,利用以上公示可以計算出每個字作為褒義詞和貶義詞的權重,n為褒義詞表中出現的所有字的個數,m為貶義詞表中出現的所有字的個數,為了平衡情感詞典中褒義詞與貶義詞之間的詞數差異性,以上兩個公式對每個字在褒貶詞表中出現的頻率進行了歸一化處理;
最后可以利用一下計算出字ci的情感傾向值Sci
Sci=(Pci-Nci)
如果Sci的值為正數,ci是褒義字,負數則是貶義字,接近于0的話,說明ci趨向于是中性,當計算新詞w的情感傾向值時,如果該詞由字C1、C2、C3…Cp組成的話,只要計算每個字的平均情感值,如下公式所示,其中p為詞w中字的個數,如果字cj沒有情感值,則Scj取值為0;
如果Sw的值為正,說明詞w的情感為褒義,Sw的值為負則詞w為貶義詞,Sw的值接近0的話,說明詞w為中性詞,或者叫非情感詞。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于上海市玻森數據科技有限公司,未經上海市玻森數據科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201410084332.2/1.html,轉載請聲明來源鉆瓜專利網。





