[發明專利]面向產品評論的跨領域對偶情感分析方法有效
| 申請號: | 201710229726.6 | 申請日: | 2017-04-10 |
| 公開(公告)號: | CN108694165B | 公開(公告)日: | 2021-11-09 |
| 發明(設計)人: | 夏睿;王樂義 | 申請(專利權)人: | 南京理工大學 |
| 主分類號: | G06F40/30 | 分類號: | G06F40/30;G06F16/35 |
| 代理公司: | 南京理工大學專利中心 32203 | 代理人: | 陳鵬 |
| 地址: | 210094 *** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 面向 產品 評論 領域 對偶 情感 分析 方法 | ||
1.一種面向產品評論的跨領域對偶情感分析方法,其特征在于,包括以下步驟:
步驟1,對于給定目標領域的產品評論數據,首先為其選定情感標注語料規模不低于目標領域四倍的領域作為源領域,獲取源領域標注語料資源;隨后對源領域和目標領域的樣本數據預處理,包括分詞、詞性標注和停用詞過濾;
步驟2,借助英文本體庫通過迭代查詢的方式遍歷源領域及目標領域語料中所有特征詞的反義詞,并根據反義詞在數據集中的詞頻信息,為每個特征詞的多個反義詞分別設置權重,構建具備一對多關系的帶權反義詞典;
步驟3,使用步驟2構建的帶權反義詞典,結合跨領域翻轉樣本構造規則構造翻轉樣本,從而擴充源領域和目標領域的樣本數據;
步驟4,采用“詞袋”模型對數據集中的原樣本及翻轉樣本進行文本表示,并對翻轉樣本中引入的帶權情感詞進行加權表示;
步驟5,采用Logistic模型或Navie Bayes算法學習基分類器,具體為:
A)對偶學習階段:使用源領域的原樣本和翻轉樣本作為訓練集訓練基分類器clsa;僅使用源領域的原樣本訓練基分類器clsb;
B)對偶預測階段:使用基分類器clsa分別預測目標領域原樣本和翻轉樣本;使用基分類器clsb預測目標領域原樣本;
C)分類器集成階段:
(1)基于權重的集成:如式(2)中所示,其中權重參數α(0≤α≤1),po(+|x)為基分類器clsa預測目標領域原樣本為正類的概率,為基分類器clsa預測目標領域翻轉樣本預測為負類的概率;為采用(2)中加權的方式集成目標領域原樣本、翻轉樣本關于類別y的預測概率;
(2)基于置信度的集成:采用置信度平滑概率,如式(3)所示,其中為樣本最終預測的標簽,p(y|x)為基分類器clsb預測目標領域原樣本的概率,Δp為c為置信度,其中,當c0時,系統更信任基于權重的集成
2.根據權利要求1所述的面向產品評論的跨領域對偶情感分析方法,其特征在于,所述步驟1具體為:
A)對于給定目標領域的產品評論數據,首先為其選定情感標注語料規模不低于目標領域四倍的領域作為源領域,獲取源領域標注語料資源;
B)使用現有的開源分詞和詞性標注工具對源領域及目標領域的語料進行分詞、詞性標注,并過濾語料中的停用詞。
3.根據權利要求2所述的面向產品評論的跨領域對偶情感分析方法,其特征在于,使用的分詞和詞性標注工具包括NLTK,Stanford-PosTagger。
4.根據權利要求1所述的面向產品評論的跨領域對偶情感分析方法,其特征在于,步驟2所述具備 一對多關系的帶權反義詞典的構建方法具體為:
借助英文本體庫通過迭代查詢的方式遍歷源領域和目標領域中所有形容詞、動詞、副詞的反義詞,并根據各反義詞在數據集的詞頻信息,為每個特征擇的多個反義詞分別設置權重,構建具備一對多關系的帶權反義詞典;
特征詞的反義詞權重計算策略如下:
A)BOOL權重策略,即將每個特征詞的多個反義詞的權重均設置為1;
B)詞頻權重策略,采用一種基于詞頻與權重映射關系的表示方法;
首先,定義一種詞頻和權重信息的映射關系,表示為:
其中為權重向量,維度為詞表大小,為詞頻權重,為詞表,#V為詞表大小。
5.根據權利要求4所述的面向產品評論的跨領域對偶情感分析方法,其特征在于,使用的英文本體庫為WordNet。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于南京理工大學,未經南京理工大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710229726.6/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種分詞訓練方法及裝置
- 下一篇:候選詞評估方法、裝置、計算機設備和存儲介質





