[發明專利]輿情情感識別方法、裝置及計算機可讀存儲介質有效
| 申請號: | 201811096799.3 | 申請日: | 2018-09-18 |
| 公開(公告)號: | CN109359296B | 公開(公告)日: | 2023-08-18 |
| 發明(設計)人: | 鄭少杰;蔡遠航;付勇;林文聰;范增虎 | 申請(專利權)人: | 深圳前海微眾銀行股份有限公司 |
| 主分類號: | G06F40/279 | 分類號: | G06F40/279;G06F40/242;G06F40/289;G06F16/35;G06F16/953;G06F18/22 |
| 代理公司: | 北京同立鈞成知識產權代理有限公司 11205 | 代理人: | 楊澤;劉芳 |
| 地址: | 518052 廣東省深圳市前海深港合作區前*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 輿情 情感 識別 方法 裝置 計算機 可讀 存儲 介質 | ||
本發明公開了一種輿情情感識別方法,包括:采用主題模型算法對同一領域的多個輿情文檔進行主題聚類,得到多個主題簇,每一主題簇包括一個或多個文檔;對相應主題簇進行正負情感標注,得到帶有正負情感標簽的文檔;將帶有正負情感標簽的文檔作為訓練樣本,進行情感識別模型訓練;基于所述情感識別模型,對待識別的目標輿情文檔進行情感識別。本發明還公開了一種輿情情感識別裝置及計算機可讀存儲介質。本發明提升了情感語料的標注效率,降低了輿情情感識別的操作難度。
技術領域
本發明涉及情感識別技術領域,尤其涉及一種輿情情感識別方法、裝置及計算機可讀存儲介質。
背景技術
傳統的情感分析,通常需要全人工標注大量的正負面情感語料,然后通過情感語料進行訓練,以抽取正負面語料中的情感詞,最后再基于情感詞的分布對一段文本進行情感識別,確認文檔的情感偏向,比如該文本屬于正向情感(積極的)或者屬于負向情感(消極的)。
通常文本輿情的情感對不同行業領域來說,其定義是不一樣的,因此,同樣的情感語料很難完美的遷移到所有行業領域,因而往往需要針對相應的行業領域生成大量的情感語料,而每一條情感語料的生成都必須經過人工標注,因而需要大量的人力并且還需要相應的專業背景知識,進而影響了情感語料的標注效率,加大了輿情情感識別的操作難度。
發明內容
本發明的主要目的在于提供一種輿情情感識別方法、裝置及計算機可讀存儲介質,旨在解決如何提升情感語料的標注效率,降低輿情情感識別的操作難度的技術問題。
為實現上述目的,本發明提供一種輿情情感識別方法,所述輿情情感識別方法包括:
采用主題模型算法對同一領域的多個輿情文檔進行主題聚類,得到多個主題簇,每一主題簇包括一個或多個文檔;
對相應主題簇進行正負情感標注,得到帶有正負情感標簽的文檔;
將帶有正負情感標簽的文檔作為訓練樣本,進行情感識別模型訓練;
基于所述情感識別模型,對待識別的目標輿情文檔進行情感識別。
可選地,所述對相應主題簇進行正負情感標注包括:
基于預置的情感詞典,從所有主題簇中篩選出具有情感傾向的主題簇并進行正負情感標注。
可選地,所述對相應主題簇進行正負情感標注包括:
獲取用戶指定的主題簇以及主題簇對應的正負情感;
對用戶指定的主題簇進行正負情感標注。
可選地,在所述對相應主題簇進行正負情感標注,得到帶有正負情感標簽的文檔的步驟之后還包括:
判斷本輪主題聚類進行正負情感標注的主題簇數量以及正負向情感之間主題簇數量比例是否滿足形成訓練樣本的條件;
若是,則停止進行下一輪主題聚類;
若否,則增大進行主題聚類所輸出的主題簇數量并繼續采用主題模型算法對所述輿情文檔進行下一輪主題聚類。
可選地,所述基于所述情感識別模型,對待識別的目標輿情文檔進行情感識別包括:
提取待識別的目標輿情文檔中的關鍵句作為文本摘要;
基于所述情感識別模型,對所述文本摘要進行情感識別。
可選地,所述提取待識別的目標輿情文檔中的關鍵句作為文本摘要包括:
對所述目標輿情文檔進行分句,得到構成所述目標輿情文檔的所有句子;
計算所述目標輿情文檔的標題與每一個句子的相似度;
基于所述相似度,對每一個句子進行排序;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于深圳前海微眾銀行股份有限公司,未經深圳前海微眾銀行股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201811096799.3/2.html,轉載請聲明來源鉆瓜專利網。





