[發明專利]基于大數據的情緒詞典的構建方法、裝置及服務器在審
| 申請號: | 201711148610.6 | 申請日: | 2017-11-17 |
| 公開(公告)號: | CN107807920A | 公開(公告)日: | 2018-03-16 |
| 發明(設計)人: | 趙立永;吳新麗;姚笛;李云飛;王文文 | 申請(專利權)人: | 新華網股份有限公司 |
| 主分類號: | G06F17/27 | 分類號: | G06F17/27;G06F17/30 |
| 代理公司: | 北京市立方律師事務所11330 | 代理人: | 張筱寧 |
| 地址: | 100062 北京市大興區北*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 數據 情緒 詞典 構建 方法 裝置 服務器 | ||
技術領域
本發明涉及文本挖掘、自然語言處理領域,具體而言,本發明涉及基于大數據的情緒詞典的構建方法、裝置及服務器。
背景技術
隨著因特網技術的不斷發展,用戶可以在網上針對各種事件、商品等發表個人觀點(文本信息),表達個人情緒。通過對文本信息進行情緒挖掘分析,以獲得用戶對事件或商品的情緒傾向性,有利于事件處置、產品改進,具有非常高的使用價值。
現有技術中對文本信息的情緒分析方法通常是:通過預置的情緒詞典對文本信息中的詞語進行匹配,以確定出該文本信息中包含的情緒詞語;根據預置情緒詞典中各個情緒詞語對應的情緒類別,確定出該文本信息中匹配成功的情緒詞語對應的情緒類別,例如,確定出的情緒類別為積極或消極、正面或負面、或褒義和貶義等。
由上述的現有技術可知:在對文本信息進行分析時,情緒詞典的作用尤為重要,直接關系著文本信息的情緒分析的合理性和準確性。而現有的情緒詞典的構建方法十分簡單,只是簡單地預置各個情緒詞語的類別,對文本信息的情緒分析粒度較大,有時并不能準確地分析出用戶所發布文本信息的情緒傾向,可復用性不高。
因此,目前需要一種基于大數據的情緒詞典的構建方法,使得構建出的情緒詞典可以更加細粒度地實現文本信息的情緒分析,進而更加準確地分析出用戶所發布文本信息的情緒傾向。
發明內容
鑒于上述缺點,本發明提供了基于大數據的情緒詞典的構建方法、裝置及服務器,應用本發明構建出的情緒詞典,相比于現有技術,可以更加細粒度地對文本信息進行分析,進而更加準確地分析出用戶所發布文本信息的情緒傾向。
本發明實施例提供了一種基于大數據的情緒詞典的構建方法,包括:
獲取原始文本信息,并對原始文本信息進行切詞處理以得到待處理詞語;
確定任一待處理詞語與預建立的基礎情緒詞典中各個情緒詞語之間的相似度;
根據確定的相似度,以及基礎情緒詞典中各個情緒詞語對應的情緒類別、及與情緒類別對應的情緒強度,對基礎情緒詞典進行更新以構建情緒詞典。
優選地,確定任一待處理詞語與預建立的基礎情緒詞典中各個情緒詞語之間的相似度的步驟,包括:
依據待處理詞語以及基礎情緒詞典中的各個情緒詞語在原始文本信息中的上下文信息,確定各個詞語的詞向量;
根據確定出的詞向量,計算各個待處理詞語與各個情緒詞語之間的相似度。
優選地,對原始文本信息進行切詞處理以得到待處理詞語,還包括:
刪除切詞結果中的停用詞。
優選地,根據確定的相似度,以及基礎情緒詞典中各個情緒詞語對應的情緒類別、及與情緒類別對應的情緒強度,對基礎情緒詞典進行更新以構建情緒詞典的步驟,包括:
對各個待處理詞語與任一情緒詞語之間的相似度進行排序,選取排序前預設值的待處理詞語作為該情緒詞語的候選擴展詞語;
根據任一候選擴展詞語與該情緒詞語之間的相似度、該情緒詞語的情緒類別及該情緒類別對應的情緒強度,確定該任一候選擴展詞語的情緒類別及對應情緒強度;
根據該任一候選擴展詞語的情緒類別及對應情緒強度對基礎情緒詞典進行更新以構建情緒詞典。
優選地,當任一候選擴展詞語對應多個情緒詞語時,在對各個待處理詞語與任一情緒詞語之間的相似度進行排序,選取排序前預設值的待處理詞語作為該情緒詞語的候選擴展詞語之后,還包括:
確定任一候選擴展詞語和與其對應的各個情緒詞語之間的最大相似度;
其中,根據任一候選擴展詞語與該情緒詞語之間的相似度、該情緒詞語的情緒類別及該情緒類別對應的情緒強度,確定該任一候選擴展詞語的情緒類別及對應情緒強度的步驟,包括:
根據最大相似度對應情緒詞語的情緒類別及情緒強度,確定該任一候選擴展詞語的情緒類別及對應情緒強度。
優選地,在對基礎情緒詞典進行更新之后,還包括:
獲取預設時間段內包含情緒詞典中任一情緒詞語的文本信息的第一數量,以及預設時間段內包含情緒詞典中全部情緒詞語的文本信息的第二數量;
根據第一數量和第二數量確定該任一情緒詞語的有效利用率;
當判斷該任一情緒詞語的有效利用率小于利用率閾值時,將該任一情緒詞語從基礎情緒詞典中刪除。
本發明實施例提供了一種基于大數據的情緒詞典的構建裝置,包括:
獲取單元用于獲取原始文本信息,并對原始文本信息進行切詞處理以得到待處理詞語;
確定單元用于確定任一待處理詞語與預建立的基礎情緒詞典中各個情緒詞語之間的相似度;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于新華網股份有限公司,未經新華網股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201711148610.6/2.html,轉載請聲明來源鉆瓜專利網。
- 數據顯示系統、數據中繼設備、數據中繼方法、數據系統、接收設備和數據讀取方法
- 數據記錄方法、數據記錄裝置、數據記錄媒體、數據重播方法和數據重播裝置
- 數據發送方法、數據發送系統、數據發送裝置以及數據結構
- 數據顯示系統、數據中繼設備、數據中繼方法及數據系統
- 數據嵌入裝置、數據嵌入方法、數據提取裝置及數據提取方法
- 數據管理裝置、數據編輯裝置、數據閱覽裝置、數據管理方法、數據編輯方法以及數據閱覽方法
- 數據發送和數據接收設備、數據發送和數據接收方法
- 數據發送裝置、數據接收裝置、數據收發系統、數據發送方法、數據接收方法和數據收發方法
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置





