[發明專利]一種基于社會媒體的事件圖譜構建方法有效
| 申請號: | 201810445536.2 | 申請日: | 2018-05-11 |
| 公開(公告)號: | CN108763333B | 公開(公告)日: | 2022-05-17 |
| 發明(設計)人: | 張日崇;馬宏遠;王飛;杜翠蘭;王玥;柳毅;李建欣;趙曉航;胡春明 | 申請(專利權)人: | 北京航空航天大學;國家計算機網絡與信息安全管理中心 |
| 主分類號: | G06F16/36 | 分類號: | G06F16/36;G06F40/295 |
| 代理公司: | 北京中創陽光知識產權代理有限責任公司 11003 | 代理人: | 尹振啟 |
| 地址: | 100191*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 社會 媒體 事件 圖譜 構建 方法 | ||
本發明則提出一種基于社會媒體的事件圖譜構建方法,首先進行多源數據預處理,接著對預處理后的數據進行多源事件信息抽取,然后通過事件關系評價對事件間關系進行判定,最后進行實體信息融合,對異構圖中的實體進行屬性補全。本發明將事件看做抽象實體,基于社會媒體文本數據對抽取事件基本構成要素,事件進行關聯,并融合已有結構化知識庫構建事件圖譜,這樣能夠提供更全面更直接的面向事件的信息檢索服務,還能通過將傳統非結構化文本內容的研究轉化為基于圖的研究,有利于發掘更深層次的信息。
技術領域
本發明涉及一種事件圖譜構建方法,尤其涉及一種基于社會媒體的事件圖譜構建方法。
背景技術
隨著互聯網的迅速普及,各類社會網絡媒體蓬勃發展,這些社會媒體已成為人們發布、獲取、傳播事件資訊最為重要的渠道,對這些事件進行整理和研究有助于人們了解事件發展規律、指導生產生活,在新聞推薦、輿情分析等領域也有廣泛需求和應用。然而數據源及數據量的爆炸式增長固然意味著更豐富信息,但無結構的組織方式、低價值密度等特性也給事件信息挖掘帶來了挑戰,將這些數據轉化成結構化的、帶層級關聯關系的事件知識,將有助于解決該問題。
從數據源總體情況來看,當前社會網絡媒體中的事件數據往往散布在各種非結構化網頁中,包含大量無用數據,不利于對信息的有效分析和利用,其主要存在以下三方面問題:①信息冗余度高而價值密度低,網頁數據噪聲多;②數據規模大且分散,難以實現對海量事件數據高效查詢獲取;③缺乏統一規范,難以發現信息與信息間的層次結構和關聯性。
現有技術中,對事件進行結構化表示的主流方法是利用事件抽取技術,從自然語言文本中抽取事件有用的信息。如元事件抽取主要針對短文句、段落中的獨立事件,首先對事件觸發詞進行識別找到事件句,再對時間、地點、人物等基本要素進行抽取,而主題事件抽取則在此基礎上面向長文本或者多文本,對與同一主題直接相關的元事件進行聚合。然而事件抽取技術僅僅針對文本進行淺層處理,最終產物以事件庫為主,并未深入到語義層面,難以滿足如關聯分析、關聯查詢等需求,且事件抽取往往針對單一數據源進行處理,不能充分發揮多源數據優勢豐富事件庫中的要素信息,提升信息價值密度。
發明內容
針對以上問題,為挖掘社會媒體事件結構信息及事件間關聯關系,提高多源事件信息的瀏覽、檢索效率,強化事件庫歸納、推理能力,本發明則提出將事件看做抽象實體,基于社會媒體文本數據對抽取事件基本構成要素,事件進行關聯,并融合已有結構化知識庫構建事件圖譜,這樣能夠提供更全面更直接的面向事件的信息檢索服務,還能通過將傳統非結構化文本內容的研究轉化為基于圖的研究,有利于發掘更深層次的信息。本發明對以新聞、百科、微博為代表的多源社會化網絡媒體數據進行采集作為數據輸入,以事件為核心實體,識別數據中事件及其相關要素形成事件元組,通過事件關系評價、實體信息融合等技術,再利用百科知識庫對事件信息進行補全,完成社會媒體的事件圖譜構建。
本發明提出一種基于社會媒體的事件圖譜構建方法,首先進行多源數據預處理,接著對預處理后的數據進行多源事件信息抽取,然后通過事件關系評價對事件間關系進行判定,最后進行實體信息融合,對異構圖中的實體進行屬性補全。
附圖說明
圖1為本發明一實施例的事件圖譜;
圖2為本發明的圖譜構建任務流程圖;
圖3為本發明的新聞爬蟲基本工作流程;
圖4為本發明的信息抽取的主要技術和任務圖;
圖5為本發明的信息融合子模塊的流程圖。
圖6為本發明一實施例的轉移量矩陣。
具體實施方式
為了使本發明的目的、技術方案及優點更加清楚明白,以下結合附圖及實施例,對本發明進行進一步詳細說明。應當理解,此處所描述的具體實施例僅僅用以解釋本發明,并不用于限定本發明。此外,下面所描述的本發明各個實施方式中所涉及到的技術特征只要彼此之間未構成沖突就可以相互組合。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京航空航天大學;國家計算機網絡與信息安全管理中心,未經北京航空航天大學;國家計算機網絡與信息安全管理中心許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810445536.2/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種搜索提示詞的生成方法和裝置
- 下一篇:協同瀏覽與其他形式的信息共享的集成





