[發明專利]基于大數據的情緒詞典的構建方法、裝置及服務器在審

申請號：	201711148610.6	申請日：	2017-11-17
公開（公告）號：	CN107807920A	公開（公告）日：	2018-03-16
發明（設計）人：	趙立永;吳新麗;姚笛;李云飛;王文文	申請（專利權）人：	新華網股份有限公司
主分類號：	G06F17/27	分類號：	G06F17/27;G06F17/30
代理公司：	北京市立方律師事務所11330	代理人：	張筱寧
地址：	100062 北京市大興區北***	國省代碼：	北京;11
權利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關鍵詞：	基于數據情緒詞典構建方法裝置服務器
鉆瓜網技術展會專利詞庫專利權人專利榜在售專利公布日期熱門專利

【說明書】：

技術領域

本發明涉及文本挖掘、自然語言處理領域，具體而言，本發明涉及基于大數據的情緒詞典的構建方法、裝置及服務器。

背景技術

隨著因特網技術的不斷發展，用戶可以在網上針對各種事件、商品等發表個人觀點(文本信息)，表達個人情緒。通過對文本信息進行情緒挖掘分析，以獲得用戶對事件或商品的情緒傾向性，有利于事件處置、產品改進，具有非常高的使用價值。

現有技術中對文本信息的情緒分析方法通常是：通過預置的情緒詞典對文本信息中的詞語進行匹配，以確定出該文本信息中包含的情緒詞語；根據預置情緒詞典中各個情緒詞語對應的情緒類別，確定出該文本信息中匹配成功的情緒詞語對應的情緒類別，例如，確定出的情緒類別為積極或消極、正面或負面、或褒義和貶義等。

由上述的現有技術可知：在對文本信息進行分析時，情緒詞典的作用尤為重要，直接關系著文本信息的情緒分析的合理性和準確性。而現有的情緒詞典的構建方法十分簡單，只是簡單地預置各個情緒詞語的類別，對文本信息的情緒分析粒度較大，有時并不能準確地分析出用戶所發布文本信息的情緒傾向，可復用性不高。

因此，目前需要一種基于大數據的情緒詞典的構建方法，使得構建出的情緒詞典可以更加細粒度地實現文本信息的情緒分析，進而更加準確地分析出用戶所發布文本信息的情緒傾向。

發明內容

鑒于上述缺點，本發明提供了基于大數據的情緒詞典的構建方法、裝置及服務器，應用本發明構建出的情緒詞典，相比于現有技術，可以更加細粒度地對文本信息進行分析，進而更加準確地分析出用戶所發布文本信息的情緒傾向。

本發明實施例提供了一種基于大數據的情緒詞典的構建方法，包括：

獲取原始文本信息，并對原始文本信息進行切詞處理以得到待處理詞語；

確定任一待處理詞語與預建立的基礎情緒詞典中各個情緒詞語之間的相似度；

根據確定的相似度，以及基礎情緒詞典中各個情緒詞語對應的情緒類別、及與情緒類別對應的情緒強度，對基礎情緒詞典進行更新以構建情緒詞典。

優選地，確定任一待處理詞語與預建立的基礎情緒詞典中各個情緒詞語之間的相似度的步驟，包括：

依據待處理詞語以及基礎情緒詞典中的各個情緒詞語在原始文本信息中的上下文信息，確定各個詞語的詞向量；

根據確定出的詞向量，計算各個待處理詞語與各個情緒詞語之間的相似度。

優選地，對原始文本信息進行切詞處理以得到待處理詞語，還包括：

刪除切詞結果中的停用詞。

優選地，根據確定的相似度，以及基礎情緒詞典中各個情緒詞語對應的情緒類別、及與情緒類別對應的情緒強度，對基礎情緒詞典進行更新以構建情緒詞典的步驟，包括：

對各個待處理詞語與任一情緒詞語之間的相似度進行排序，選取排序前預設值的待處理詞語作為該情緒詞語的候選擴展詞語；

根據任一候選擴展詞語與該情緒詞語之間的相似度、該情緒詞語的情緒類別及該情緒類別對應的情緒強度，確定該任一候選擴展詞語的情緒類別及對應情緒強度；

根據該任一候選擴展詞語的情緒類別及對應情緒強度對基礎情緒詞典進行更新以構建情緒詞典。

優選地，當任一候選擴展詞語對應多個情緒詞語時，在對各個待處理詞語與任一情緒詞語之間的相似度進行排序，選取排序前預設值的待處理詞語作為該情緒詞語的候選擴展詞語之后，還包括：

確定任一候選擴展詞語和與其對應的各個情緒詞語之間的最大相似度；

其中，根據任一候選擴展詞語與該情緒詞語之間的相似度、該情緒詞語的情緒類別及該情緒類別對應的情緒強度，確定該任一候選擴展詞語的情緒類別及對應情緒強度的步驟，包括：

根據最大相似度對應情緒詞語的情緒類別及情緒強度，確定該任一候選擴展詞語的情緒類別及對應情緒強度。

優選地，在對基礎情緒詞典進行更新之后，還包括：

獲取預設時間段內包含情緒詞典中任一情緒詞語的文本信息的第一數量，以及預設時間段內包含情緒詞典中全部情緒詞語的文本信息的第二數量；

根據第一數量和第二數量確定該任一情緒詞語的有效利用率；

當判斷該任一情緒詞語的有效利用率小于利用率閾值時，將該任一情緒詞語從基礎情緒詞典中刪除。

本發明實施例提供了一種基于大數據的情緒詞典的構建裝置，包括：

獲取單元用于獲取原始文本信息，并對原始文本信息進行切詞處理以得到待處理詞語；

確定單元用于確定任一待處理詞語與預建立的基礎情緒詞典中各個情緒詞語之間的相似度；

下載完整專利技術內容需要扣除積分，VIP會員可以免費下載。

免登錄下載普通用戶下載升級VIP會員，免費下載

該專利技術資料僅供研究查看技術是否侵權等信息，商用須獲得專利權人授權。該專利全部權利屬于新華網股份有限公司，未經新華網股份有限公司許可，擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作，請聯系【客服】

本文鏈接：http://www.szxzyx.cn/pat/books/201711148610.6/2.html，轉載請聲明來源鉆瓜專利網。

上一篇：一種利用循環隨機游走網絡進行微博情感分類預測的方法
下一篇：一種帶通訊功能的多功能翻譯機

同類專利

專利分類

G 物理

G06 計算；推算；計數
G06F 電數字數據處理
G06F17-00 特別適用于特定功能的數字計算設備或數據處理設備或數據處理方法
G06F17-10 .復雜數學運算的
G06F17-20 .處理自然語言數據的
G06F17-30 .信息檢索；及其數據庫結構
G06F17-40 .數據的獲取和記錄
G06F17-50 .計算機輔助設計

免登錄下載普通用戶下載升級VIP會員，免費下載

專利文獻下載

說明：

1、專利原文基于中國國家知識產權局專利說明書；

2、支持發明專利、實用新型專利、外觀設計專利（升級中）；

3、專利數據每周兩次同步更新，支持Adobe PDF格式；

4、內容包括專利技術的結構示意圖、流程工藝圖或技術構造圖；

5、已全新升級為極速版,下載速度顯著提升！歡迎使用！

請您登陸后，進行下載，點擊【登陸】【注冊】