[發明專利]一種輿情事件檢測方法及裝置有效
| 申請號: | 201610197073.3 | 申請日: | 2016-03-31 |
| 公開(公告)號: | CN107193796B | 公開(公告)日: | 2021-12-24 |
| 發明(設計)人: | 蔡慧慧;劉克松;張丹;于曉明;楊建武 | 申請(專利權)人: | 北大方正集團有限公司;北京大學;北京北大方正電子有限公司 |
| 主分類號: | G06F40/30 | 分類號: | G06F40/30;G06F16/958 |
| 代理公司: | 北京路浩知識產權代理有限公司 11002 | 代理人: | 李相雨 |
| 地址: | 100871 北京*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 輿情 事件 檢測 方法 裝置 | ||
本發明公開了一種輿情事件檢測方法及裝置,方法包括:獲取待檢測文本的特征詞向量;獲取所有特征詞對應的向量,并獲取敏感義項向量;計算待檢測文本的特征詞向量和所有特征詞對應的特征詞向量的相似度;獲取相似度最大時對應的第一敏感義項,并獲取待檢測文本中第一敏感義項的數量和待檢測文本中特征詞的數量,根據第一預設權值和第二預設權值,計算第一敏感義項的數量和特征詞的數量的加權和,當加權和大于閾值時確定待檢測文本中描述的事件為輿情事件。本發明通過對待檢測文本向量化,能夠達到有效的語義約束;同時通過計算待檢測文本的特征詞向量和所有特征詞對應的特征詞向量的相似度,能夠準確檢測出需要進行關注的輿情事件的問題。
技術領域
本發明涉及計算機技術領域,具體涉及一種輿情事件檢測方法及裝置。
背景技術
隨著互聯網的迅猛發展,網絡輿情正在成為普通百姓表達利益訴求,倡導社會公平公正,不間斷地向我國各級政府傳達民眾共同心聲的一塊思想陣地。越來越多的人愿意把所想表達的觀點和所看到的現象發布到網絡上,通過網絡的傳播讓更多的人參與進來,從而對網民情緒和社會穩定產生了重大影響。因此,利用現代科學技術,準確檢測輿情事件具有十分重要的意義。
目前關于輿情事件的檢測發現,還停留在利用一些輿情敏感詞匯來進行語義匹配,又由于與輿情事件關聯的命名實體詞,如人名、外文人名譯名和機構名簡稱,只有出現在相關聯事件的語境中才體現輿情。而對于存在重名的命名實體,需要結合當前輿情事件背景分析其含義,對于該類具有歧義的特征詞,傳統靜態語料庫中可能未含有對其最新的解釋性義項。這種傳統的基于輿情特征詞(敏感詞、命名實體等)的過濾方法,因其實現機制簡單、執行效率高,仍是一種重要的預處理手段;然而,面對互聯網海量文本,尤其是碎片化、不規范的社會化媒體內容,該預處理過濾機制由于缺乏有效的語義約束,存在一定的假陽性,容易造成錯判、漏判,無法準確識別需要進行關注的輿情事件。在大數據的網絡輿情預警應用環境中給后續處理帶來相當可觀的噪音數據輸入,因此亟需要具備語義理解能力的數據預處理機制。
發明內容
由于傳統的特征詞過濾方法面對互聯網海量文本,缺乏有效的語義約束,容易造成錯判、漏判,無法準確檢測出需要進行關注的輿情事件的問題,本發明提出一種輿情事件檢測方法及裝置。
第一方面,本發明提出一種輿情事件檢測方法,包括:
獲取待檢測文本的特征詞向量,所述特征詞向量的元素表示待檢測文本中對應的特征詞是否出現;
從語義知識庫中獲取所有特征詞對應的向量,并從敏感詞庫獲取敏感義項向量,所述特征詞對應的向量的元素包括當前特征詞、當前特征詞是否包含敏感義項、當前特征詞的當前義項和當前特征詞對應的特征詞向量,所述敏感義項向量表示當前特征詞對應的向量中的義項為當前敏感義項;
計算待檢測文本的特征詞向量和所有特征詞對應的特征詞向量的相似度,其中,所述所有特征詞對應的特征詞向量包括所有敏感義項向量;
獲取相似度最大時對應的第一敏感義項,并獲取待檢測文本中所述第一敏感義項的數量和待檢測文本中特征詞的數量,根據第一預設權值和第二預設權值,計算所述第一敏感義項的數量和所述特征詞的數量的加權和,當所述加權和大于閾值時確定待檢測文本中描述的事件為輿情事件。
優選地,所述獲取待檢測文本的特征詞向量之前包括:
根據網頁內容構建所述語義知識庫。
優選地,所述網頁內容存儲在xml格式文件中。
優選地,所述網頁內容為維基百科。
優選地,所述根據網頁內容構建所述語義知識庫之后包括:
根據所述語義知識庫和預設特征詞的敏感義項建立敏感詞庫。
第二方面,本發明還提出一種輿情事件檢測裝置,包括:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北大方正集團有限公司;北京大學;北京北大方正電子有限公司,未經北大方正集團有限公司;北京大學;北京北大方正電子有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201610197073.3/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種基于內容的即時通信新消息通知方法
- 下一篇:信息處理方法及裝置





