[發明專利]一種輿情事件檢測方法及裝置有效
| 申請號: | 201610197073.3 | 申請日: | 2016-03-31 |
| 公開(公告)號: | CN107193796B | 公開(公告)日: | 2021-12-24 |
| 發明(設計)人: | 蔡慧慧;劉克松;張丹;于曉明;楊建武 | 申請(專利權)人: | 北大方正集團有限公司;北京大學;北京北大方正電子有限公司 |
| 主分類號: | G06F40/30 | 分類號: | G06F40/30;G06F16/958 |
| 代理公司: | 北京路浩知識產權代理有限公司 11002 | 代理人: | 李相雨 |
| 地址: | 100871 北京*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 輿情 事件 檢測 方法 裝置 | ||
1.一種輿情事件檢測方法,其特征在于,包括:
獲取待檢測文本的特征詞向量,所述特征詞向量的元素表示待檢測文本中對應的特征詞是否出現;
從語義知識庫中獲取所有特征詞對應的向量,所述特征詞對應的向量的元素包括當前特征詞、當前特征詞是否包含敏感義項、當前特征詞的當前義項和當前特征詞對應的特征詞向量;并從敏感詞庫獲取敏感義項向量,所述敏感義項向量表示當前特征詞對應的向量中的義項為預設的特征詞敏感義項;且所述敏感詞庫是基于所述語義知識庫和預設特征詞的敏感義項建立的;其中,所述語義知識庫所有特征詞中的敏感特征詞對應的向量均具有歧義標注;
計算待檢測文本的特征詞向量和所有特征詞對應的特征詞向量的總體相似度,其中,所述所有特征詞對應的特征詞向量包括從敏感詞庫獲取的所有敏感義項向量;且所述計算待檢測文本的特征詞向量和所有特征詞對應的特征詞向量的總體相似度具體包括:計算多個特征詞向量之間相似度以及計算各特征詞與背景文本向量的相似度的和,以作為所述總體相似度;
其中,所述總體相似度函數f(wi)的相關計算公式如下:
max f(wi)
f(wi)=f(wi+1)+Sim(wi,wi+1)+Sim(wi,doci)
s.t.
wi∈{v1,v2…,vm}
doci=(w1,w2,…,wn),wi=0
其中,wi表示待檢測文木中的特征詞向量,v1,v2……是待檢測文木中各分詞分別對應的特征詞向量,若該詞為非歧義詞,則有一個向量表示,反之,有多個向量表示;f(wi)表示所述計算待檢測文本的特征詞向量和所有特征詞對應的特征詞向量的總體相似度;Sim(wi,wi+1)表示兩兩相鄰特征詞向量之間相似度;Sim(wi,doci)表示各特征詞與背景文本向量的相似度;其中,doci是背景文本向量,為對待檢測文本去除敏感特征詞后的背景文本進行的向量表示,即將是否包含敏感義項相應位置的元素置為0時背景文本的向量表示;
獲取待檢測文本特征體總體相似度函數取最大值時待檢測文本的特征詞向量對應的第一敏感義項,包括:通過最優化方法,并基于語義知識庫中的歧義標注,獲取總體相似度函數取最大值時待檢測文本的特征詞向量對應的第一敏感義項,以確定歧義詞在文本中的準確含義;
對待檢測文本中的多個敏感特征詞,均重復執行上述各步驟以分別獲得其對應的第一敏感義項;根據獲得的第一敏感義項,并獲取待檢測文本中所述第一敏感義項的數量和待檢測文本中特征詞的數量,根據第一預設權值和第二預設權值,計算所述第一敏感義項的數量和所述特征詞的數量的加權和,當所述加權和大于閾值時確定待檢測文本中描述的事件為輿情事件。
2.根據權利要求1所述的方法,其特征在于,所述獲取待檢測文本的特征詞向量之前包括:
根據網頁內容構建所述語義知識庫。
3.根據權利要求2所述的方法,其特征在于,所述網頁內容存儲在xml格式文件中。
4.根據權利要求3所述的方法,其特征在于,所述網頁內容為維基百科。
5.根據權利要求4所述的方法,其特征在于,所述根據網頁內容構建所述語義知識庫之后包括:
根據所述語義知識庫和預設的特征詞敏感義項建立敏感詞庫。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北大方正集團有限公司;北京大學;北京北大方正電子有限公司,未經北大方正集團有限公司;北京大學;北京北大方正電子有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201610197073.3/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種基于內容的即時通信新消息通知方法
- 下一篇:信息處理方法及裝置





