[發明專利]一種確定文檔情感傾向性的方法及裝置有效
| 申請號: | 201510671710.1 | 申請日: | 2015-10-16 |
| 公開(公告)號: | CN106598935B | 公開(公告)日: | 2019-04-23 |
| 發明(設計)人: | 史立華;崔維福;何鑫 | 申請(專利權)人: | 北京國雙科技有限公司 |
| 主分類號: | G06F17/27 | 分類號: | G06F17/27;G06F16/36 |
| 代理公司: | 北京鼎佳達知識產權代理事務所(普通合伙) 11348 | 代理人: | 王偉鋒;劉鐵生 |
| 地址: | 100086 北京市海淀區*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 確定 文檔 情感 傾向性 方法 裝置 | ||
本發明公開了一種確定文檔情感傾向性的方法及裝置,涉及計算機技術領域,解決了由于情感詞的增加造成的情感詞典增大以及文檔分詞復雜所共同導致的判斷文檔情感傾向性效率降低的問題。本發明主要的技術方案為:分別獲取一個具有字典樹結構的情感詞典和一個具有字典樹結構的修飾詞典;將待測文檔以字為單位分別與情感詞典及修飾詞典中字典樹的各節點進行匹配,獲取相匹配的情感詞或修飾詞;根據情感詞與修飾詞之間的修飾關系、情感詞的情感標定值以及修飾詞的修飾程度標定值計算待測文檔的情感標定值;根據該待測文檔的情感標定值在預置的情感趨向映射區間中的位置,確定該待測文檔的情感趨向。本發明主要用于判斷文檔的情感傾向性。
技術領域
本發明涉及計算機技術領域,尤其涉及一種確定文檔情感傾向性的方法及裝置。
背景技術
隨著互聯網各種媒介交流平臺比如微博、twitter等的產生,越來越多的用戶開始在網絡上通過這些平臺表達自己的情感。情感計算的應用越來越普及,很多大的互聯網公司都已經推出了自己的輿情產品。輿情產品是一個典型網絡大數據的應用,利用收集到的數據進行情感傾向性分析,統計出大家對某一個產品的正面、負面評價或者對某一事件的支持、反對程度,因而輿情產品的應用非常廣泛,在一些產品的改進、服務的提升、風險的規避方面有非常重要的指導意義。
情感計算可以通過很多方法來實現,一般分為兩大類型,一是基于機器學習的方法,二是純粹基于詞典的方法。機器學習的方法,一般是通過標記語料訓練一個通用分類器,然后利用這個分類器來進行情感判斷。基于詞典的方法需要準備一個較大的情感詞典,通過詞典中情感詞匹配的程度來進行情感判斷。
機器學習的情感計算方法首先需要一批均衡的標記語料,可能來自于不同的數據來源或者各種各樣的數據格式。因此,收集帶標記的語料過程是比較耗費時間的,不同的數據來源具有不同的數據特點,可能需要使用不同的訓練方式,工作量較大,訓練時間較長。并且,不同領域的數據分布不相同,很難找到一個通用的模型適應所有的領域。而基于詞典的情感計算過程需要一個情感詞典,情感詞內部包含一系列帶有情感傾向的詞匯,在實際計算過程中,利用情感詞的情感程度累積來表示整個文檔的情感值。一般需要先對文檔進行分詞。通常來說,詞典要想取得好的更好的效果,只能通過不斷增大情感詞典,算法的復雜度將達到M*N,其中M是詞典中詞條的個數,N是文檔中出現詞語的個數。因此,在將文檔進行分詞后再帶入情感詞典進行計算會需要較長時間,影響文檔的情感劃分效率。
發明內容
有鑒于此,本發明提供一種確定文檔情感傾向性的方法及裝置,主要目的在于解決由于情感詞的增加造成的情感詞典增大以及文檔分詞復雜所共同導致的判斷文檔情感傾向性效率降低的問題。
為達到上述目的,本發明主要提供如下技術方案:
一方面,本發明提供了一種確定文檔情感傾向性的方法,該方法包括:
分別獲取一個具有字典樹結構的情感詞典和一個具有字典樹結構的修飾詞典,其中,所述情感詞典中包含帶有情感標定值的情感詞,所述修飾詞典中包含帶有修飾程度標定值的修飾詞;
將待測文檔以字為單位分別與所述情感詞典及所述修飾詞典中字典樹的各節點進行匹配,獲取相匹配的情感詞或修飾詞;
根據情感詞與修飾詞之間的修飾關系、情感詞的情感標定值以及修飾詞的修飾程度標定值計算所述待測文檔的情感標定值;
根據所述待測文檔的情感標定值在預置的情感趨向映射區間中的位置,確定所述待測文檔的情感趨向。
另一方面,本發明還提供了一種確定文檔情感傾向性的裝置,該裝置包括:
第一獲取單元,用于獲取一個具有字典樹結構的情感詞典所述情感詞典中包含帶有情感標定值的情感詞;
第二獲取單元,用于獲取一個具有字典樹結構的修飾詞典,所述修飾詞典中包含帶有修飾程度標定值的修飾詞;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京國雙科技有限公司,未經北京國雙科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201510671710.1/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:電子書數據的顯示方法、裝置及終端設備
- 下一篇:字母詞的提取方法及裝置





