[發明專利]文本情感識別方法及裝置、電子設備、存儲介質在審
| 申請號: | 201811244553.6 | 申請日: | 2018-10-24 |
| 公開(公告)號: | CN109344257A | 公開(公告)日: | 2019-02-15 |
| 發明(設計)人: | 方豪;馬駿;王少軍 | 申請(專利權)人: | 平安科技(深圳)有限公司 |
| 主分類號: | G06F16/35 | 分類號: | G06F16/35 |
| 代理公司: | 深圳市隆天聯鼎知識產權代理有限公司 44232 | 代理人: | 劉抗美 |
| 地址: | 518000 廣東省深圳市福田區福*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 樣本文本 文本情感 電子設備 情感分類 文本 修正 計算機可讀存儲介質 標簽 人工智能技術 存儲介質 情感識別 數量分布 算法學習 均衡性 準確率 | ||
本公開提供了一種文本情感識別方法及裝置、電子設備、計算機可讀存儲介質,屬于人工智能技術領域。該方法包括:獲取樣本文本集,所述樣本文本集包括多個樣本文本以及各所述樣本文本對應的情感分類標簽;根據所述樣本文本集中的情感分類標簽的數量分布對初始代價進行修正計算,獲得修正代價;通過所述樣本文本集與所述修正代價訓練一提升算法學習模型,得到文本情感識別模型;通過所述文本情感識別模型對待識別文本進行識別,得到所述待識別文本的情感識別結果。本公開可以提高識別不同情感類別的文本的準確率均衡性,改善識別效果,且具有較強的適用性。
技術領域
本公開涉及人工智能技術領域,尤其涉及一種文本情感識別方法及裝置、電子設備、計算機可讀存儲介質。
背景技術
隨著計算機技術的發展,越來越多的互聯網企業致力于通過分析大數據以提高服務質量。其中,對文本進行情感識別是一項重要的工作,例如對用戶作出的服務評價進行情感識別、對互聯網文章進行情感識別與分類等,從而更好地了解用戶的訴求、或者實現文本的精準定位與推薦等有益效果。
現有的文本情感識別方法大多采用常規的機器學習模型,依賴于特定語料的樣本文本對模型進行訓練。然而在很多語料中,不同情感的樣本文本都存在比例不均衡的問題,例如在識別電商消費者對商品評價的情感的場景中,由于正面評價的數量通常遠多于負面評價的數量,導致樣本文本的比例不均衡,訓練出的機器學習模型識別正面情感文本的準確率會高于識別負面情感文本的準確率,影響文本情感識別的效果。
需要說明的是,在上述背景技術部分公開的信息僅用于加強對本公開的背景的理解,因此可以包括不構成對本領域普通技術人員已知的現有技術的信息。
發明內容
本公開提供了一種文本情感識別方法及裝置、電子設備、計算機可讀存儲介質,進而至少在一定程度上克服現有的文本情感識別方法識別不同情感類別的文本時準確率不均衡的問題。
本公開的其他特性和優點將通過下面的詳細描述變得顯然,或部分地通過本公開的實踐而習得。
根據本公開的一個方面,提供一種文本情感識別方法,包括:獲取樣本文本集,所述樣本文本集包括多個樣本文本以及各所述樣本文本對應的情感分類標簽;根據所述樣本文本集中的情感分類標簽的數量分布對初始代價進行修正計算,獲得修正代價;通過所述樣本文本集與所述修正代價訓練一提升算法學習模型,得到文本情感識別模型;通過所述文本情感識別模型對待識別文本進行識別,得到所述待識別文本的情感識別結果。
在本公開的一種示例性實施例中,所述情感分類標簽包括正面情感文本與負面情感文本;所述根據所述樣本文本集中的情感分類標簽的數量分布對初始代價進行修正計算,獲得修正代價包括:獲取初始代價cost10和cost01,cost10為將正面情感文本誤認為負面情感文本的初始代價,cost01為將負面情感文本誤認為正面情感文本的初始代價;統計所述樣本文本集中的正面情感文本數量Q1與負面情感文本數量Q0;通過以下公式對所述初始代價進行修正計算,獲得所述修正代價:
其中,R1為樣本偏差比例,costm10為將正面情感文本誤認為負面情感文本的修正代價,costm01為將負面情感文本誤認為正面情感文本的修正代價,a為指數參數。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于平安科技(深圳)有限公司,未經平安科技(深圳)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201811244553.6/2.html,轉載請聲明來源鉆瓜專利網。





