[發明專利]面向產品評論的跨領域對偶情感分析方法有效
| 申請號: | 201710229726.6 | 申請日: | 2017-04-10 |
| 公開(公告)號: | CN108694165B | 公開(公告)日: | 2021-11-09 |
| 發明(設計)人: | 夏睿;王樂義 | 申請(專利權)人: | 南京理工大學 |
| 主分類號: | G06F40/30 | 分類號: | G06F40/30;G06F16/35 |
| 代理公司: | 南京理工大學專利中心 32203 | 代理人: | 陳鵬 |
| 地址: | 210094 *** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 面向 產品 評論 領域 對偶 情感 分析 方法 | ||
本發明公開了一種面向產品評論的跨領域對偶情感分析方法,該方法包括:對于給定目標領域的產品評論數據,獲取源領域標注語料資源,隨后對源領域和目標領域的樣本數據預處理;借助英文本體庫為語料中的特征詞構建具有一對多關系的帶權反義詞典;結合改進的知識規則和帶權反義詞典為源領域和目標領域的樣本構造翻轉數據集,擴充語料;采用“詞袋”模型對數據集中的原樣本及翻轉樣本進行文本表示,并對翻轉樣本中引入的帶權情感詞進行加權表示;采用對偶學習方法訓練基分類器,并使用基于置信度的集成策略進行基分類器集成。本發明能較好地解決情感分析任務中產品評論等短文本的數據稀疏問題、極性轉移問題,并在領域適應問題上表現良好。
技術領域
本發明涉及人工智能、自然語言處理領域,具體涉及一種面向產品評論的跨領域情感分析方法。
背景技術
隨著計算機與網絡技術的不斷發展,當今互聯網已進入社交媒體時代。越來越多的用戶樂于在網絡上分享自己對產品或事物觀點和體驗。微博、在線產品評論等帶有主觀傾向性的文本資源急劇膨脹。對于海量的主觀文本信息,僅依靠人工進行跟蹤、組織和管理已難以實現,如何利用計算機技術對互聯網上的主觀文本信息進行自動分析、挖掘用戶的觀點傾向,已逐漸成為當下最迫切的需求。
文本主觀傾向性分析,又稱文本情感分析,是自然語言處理領域研究的熱點問題之一。由于情感分析任務是一個領域相關的課題,即不同領域間數據分布的差異,往往導致特征詞在不同領域表現不同的情感極性。傳統的基于監督學習的機器學習方法需要大量的有標注樣本構建模型,而對于標注語料匱乏的領域,采用人工標注的方式,不僅需要昂貴的人力成本,效率也很低;另一方面,隨著情感分析任務的研究,部分領域已積累了充足的有情感標注信息的語料。如何利用情感標注語料豐富的領域對標注語料匱乏的目標領域的樣本進行跨領域情感分析已逐漸成為情感分析領域研究的熱點。
雖然隨著研究的深入,情感分析技術已取得了很大的進展,但仍存在一些問題有待進一步研究。如情感分類任務中的否定轉移問題、領域適應問題、短文本數據稀疏問題等等。
發明內容
本發明的目的在于提供一種面向產品評論的跨領域對偶情感分析方法,解決產品評論、微博等短文本的數據稀疏性、否定情感轉移問題及情感分類任務的領域適應問題。
實現本發明目的的技術方案為:一種面向產品評論的跨領域對偶情感分析方法,包括以下步驟:
步驟1,對于給定目標領域的產品評論數據,首先為其選定情感標注語料規模不低于目標領域四倍的領域作為源領域,獲取源領域標注語料資源;隨后對源領域和目標領域的樣本數據預處理,包括分詞、詞性標注和停用詞過濾;
步驟2,借助英文本體庫通過迭代查詢的方式遍歷源領域及目標領域語料中所有特征詞的反義詞,并根據反義詞在數據集中的詞頻信息,為每個特征詞的多個反義詞分別設置權重,構建具備一對多關系的帶權反義詞典;
步驟3,使用步驟2構建的帶權反義詞典,結合跨領域翻轉樣本構造規則構造翻轉樣本,從而擴充源領域和目標領域的樣本數據;
步驟4,采用“詞袋”模型對數據集中的原樣本及翻轉樣本進行文本表示,并對翻轉樣本中引入的帶權情感詞進行加權表示;
步驟5,采用對偶學習方法訓練基分類器,并使用基于置信度的集成策略進行基分類器集成。
與現有技術相比,本發明的有益效果為:
(1)否定詞、轉折詞的出現往往伴隨情感極性的轉移,本發明通過設計跨領域翻轉樣本構造規則擴充樣本集的同時,有效的解決了否定、轉折語言結構中的情感極性轉移問題;
(2)借助英文本體庫查詢源領域和目標領域語料中每個特征詞的反義詞,并根據每個特征詞的多個反義詞在數據集中的頻率信息分別為其設置權重;這種帶權反義詞典體現了特征詞在源領域和目標領域的綜合分布。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于南京理工大學,未經南京理工大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710229726.6/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種分詞訓練方法及裝置
- 下一篇:候選詞評估方法、裝置、計算機設備和存儲介質





