[發明專利]基于新聞的事件演化關系自動提取方法及其系統有效
| 申請號: | 201510372236.2 | 申請日: | 2015-06-29 |
| 公開(公告)號: | CN104915446B | 公開(公告)日: | 2019-01-29 |
| 發明(設計)人: | 蔡毅;黃東平;閔華清 | 申請(專利權)人: | 華南理工大學 |
| 主分類號: | G06F16/33 | 分類號: | G06F16/33;G06F16/35;G06F17/27 |
| 代理公司: | 廣州市華學知識產權代理有限公司 44245 | 代理人: | 羅觀祥 |
| 地址: | 510006 廣東省*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 演化關系 事件提取 新聞事件 新聞信息 自動提取 分析 關鍵詞提取模塊 預處理 時間提取模塊 自動提取系統 關鍵詞提取 預處理模塊 時間提取 提取模塊 新聞話題 清晰 | ||
1.基于新聞的事件演化關系自動提取方法,其特征在于,包括:
(1a)新聞信息預處理:將輸入的新聞進行分詞、詞性標注和去除停頓詞處理,并提取評論中的特征詞,建立起新聞的結構化數據;
(1b)新聞導語提取:新聞導語是在新聞的開頭,用于表達新聞的中心思想的句子;
(1c)新聞事件時間提取:新聞具有明顯的時間性,每一則事件新聞都有確定的發生時間點或者時間段,提取出該新聞的發生的時間;
(1d)事件提取:事件是談論同一件事情的新聞集合,利用文本聚類的方法,將零散的新聞匯聚為確定個數的話題事件;
(1e)事件關鍵詞提取:提取每一個事件具有代表性的詞語作為事件關鍵詞,所述事件關鍵詞用于區別其他事件,利用事件關鍵詞提取出事件代表性新聞;
(1f)事件演化關系分析:從協同依賴關系的角度、事件遷移關系的角度和時間距離的角度分析事件之間的關系,通過對分析出的事件之間的關系的線性結合,得到最終的演化關系圖;
在步驟(1f)中,所述事件演化關系分析包括以下步驟:
(2a)協同依賴關系分析;利用特征詞協同出現的概率來衡量事件間的關系度,即:協同依賴關系分析,利用特征詞協同出現的概率來計算事件的協同依賴關系的協同依賴關系值;事件a和事件b的協同依賴關系值Cd(a,b)計算方法如下:
其中,是事件a的特征向量,是指特征向量的長度,即:事件a中關鍵詞的個數,fx是事件a的特征向量中第x個特征詞;是事件b的特征向量,是事件b的特征向量的長度,即:事件b中關鍵詞的個數,fy是特征向量的第y個特征詞;I(fx,fy)是第x個特征詞fx和第y個特征詞fy的協同概率,I(fx,fy)的計算方法如下:
其中,p(fx,fy)是第x個特征詞fx和第y個特征詞fy同時出現的概率,p(fx)和p(fy)分別表示第x個特征詞fx出現的概率和第y個特征詞fy出現的概率;
通過計算所有事件之間的協同依賴關系值,得到協同依賴關系值矩陣Cd;
(2b)事件遷移關系分析;采用事件遷移關系分析,衡量事件間的演化方向;
事件遷移關系分析是指分析兩個事件之間的遷移關系;用以下的公式衡量兩個事件之間的遷移關系值Em(a,b):
其中,是事件a的關鍵特征詞向量,Nb是事件b中新聞的個數,是事件a中關鍵詞出現在事件b中的第i則新聞的次數,wb,i是事件b中第i則新聞的權重系數;
通過計算所有事件的關系度,得到事件間關系度矩陣Em;基于Cd和Em的結合,得到事件a和事件b之間的演化關系的分析方法如下:
其中,Em(a,b)是事件a和事件b的遷移關系值,Cd(a,b)是事件a和事件b的協同依賴關系值,μ是協同依賴關系值的閾值,η是事件遷移關系值的閾值;當事件a和事件b的協同依賴關系值Cd(a,b)大于μ且是事件a和事件b的事件遷移關系值Em(a,b)大于η時,則事件a到事件b存在演化關系;
(2c)時間距離關系分析;時間距離關系分析是衡量兩個事件之間的時間差距,利用衡量兩則新聞時間相似度的方法來衡量兩個事件之間的時間差距,計算公式如下所示:
其中,Td(a,b)是兩個事件之間的時間差距,ta是事件a中新聞的時間,tb是事件b中新聞的時間,ta和tb都是以天為單位,tmax是所有事件兩兩之間的時間差距中最大的時間差距;θ表示調節參數;
通過計算所有事件兩兩之間的時間差距,得到所有事件間的時間差距矩陣Td;
(2d)構建基于新聞的事件演化關系圖;通過協同依賴關系方面、事件遷移關系方面、時間距離方面的線性結合,得到兩個事件之間總的關系度R(a,b):
R(a,b)=l1×Cd(a,b)+l2×Em(a,b)+l3×Td(a,b),
其中,l1、l2和l3分別表示協同依賴關系的權重值、事件間依賴度的權重值和時間距離的權重值,并滿足l1+l2+l3=1,Cd(a,b)表示事件a和事件b的協同依賴關系值,Em(a,b)表示事件a和b的事件間依賴度,Td(a,b)表示事件a和b的時間差距,當事件a和事件b同時滿足以下關系式時:
則認為事件a到事件b存在演化關系;其中,μ是協同依賴關系的閾值,η是事件遷移關系值的閾值,ε是時間差距的閾值,λ是總關系度的閾值。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于華南理工大學,未經華南理工大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201510372236.2/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種網頁埋點的方法及裝置
- 下一篇:用于在通信系統中配置發送器均衡的技術





