[發明專利]實時識別突發事件微博數據流的檢測系統在審
| 申請號: | 202011566168.0 | 申請日: | 2020-12-25 |
| 公開(公告)號: | CN112597309A | 公開(公告)日: | 2021-04-02 |
| 發明(設計)人: | 莊旭;尹可鑫;甘翼;袁鑫;叢迅超;李貴 | 申請(專利權)人: | 西南電子技術研究所(中國電子科技集團公司第十研究所) |
| 主分類號: | G06F16/35 | 分類號: | G06F16/35;G06F16/33;G06F16/335;G06F16/31;G06F40/295;G06Q50/00 |
| 代理公司: | 成飛(集團)公司專利中心 51121 | 代理人: | 郭純武 |
| 地址: | 610036 四川*** | 國省代碼: | 四川;51 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 實時 識別 突發事件 數據流 檢測 系統 | ||
本發明公開的一種實時識別突發事件微博數據流的檢測系統,無需關于事件的任何先驗知識,快速準確檢測和識別突發事件。本發明通過下述技術方案實現:利用爬蟲工具實時爬取本文數據;實體抽取模塊抽取多種類型的命名實體,采用趨勢識別模塊獲取關于不同地域的熱詞列表;實體過濾模塊濾除不具有熱度的實體;相似度計算模塊建立窗口內的共生矩陣,計算實體相似度,構建實體關系圖;相似度過濾模塊濾除實體關系圖中數值較小的邊;實體聚類模塊對實體關系圖使用社區發現算法得到相應的聚類集合;聚類鏈接模塊對事件窗口內的事件進行持續跟蹤;聚類定級模塊對經過聚類鏈接的聚類結果依據其所包含的熱詞數目進行定級,數據存儲模塊將存儲聚類定級的信息。
技術領域
本發明屬于突發事件檢測與識別技術領域,特別是涉及一種實時識別突發事件微博數 據流的檢測系統。
背景技術
隨著互聯網技術的飛速發展,社交網絡服務、新聞、論壇、微博,以及智能手機應用為載體的社交平臺的快速發展,一些新興的互聯網服務已經成為人們傳播以及獲取信息的 重要平臺。尤其是近幾年來,微博的發展正異軍突起,并且憑借其實時性和便捷性受到廣大 用戶的喜愛。人們能夠在第一時間布和獲取關于“真實世界”某一突發事件的相關信息。例 如,新浪微博中國衛健委官方認證賬號已成為許多中國人了解新冠肺炎實時疫情狀態的首要 途徑。
近年來,利用Twitter、Facebook、新浪微博等互聯網技術提供的公開數據檢測和識 別真實世界的突發事件受到業界和學術界的持續關注。通過這些具有高度互動性的社交平臺, 人們能夠對“真實世界”的突發事件做出實時反應,可以作為社會熱點事件的有效指示器。 理解事件發生時在社交媒體上具備什么樣的發生和發展過程有助于地方政府和相關組織機構 輔助決策和快速行動。
從社交平臺所獲取的數據屬于流式數據,流式數據的特點是快速、大量、無序,并且要求快速的響應。并且這些信息資源具有信息異質、異構、分散、重復現象嚴重的特點,缺少統一的形式化表達,形成各種各樣的“信息孤島”,很難對信息資源進行整合和利用。如何滿足流式數據的處理需求也成為當前研究的一個熱點課題。流式數據處理系統中常常要 提取出事件,進而針對將來發生在流式數據上的事件做預測分析處理和對事件和主題的表達, 以方便有效地獲得想要了解的問題,滿足相關的應用需求。
使用流式數據自動檢測和分類事件,對于需要作出相應反應的公共安全組織,衛生 防疫機構等,都具有很高的參考價值。基于社交平臺數據流的事件的檢測與識別面臨許多挑 戰,仍處于探索階段。首先,社交平臺通常會對在線發送的帖子的長度作出限制,這意味著 只有少量的文本可以用于分析。其次,在社交平臺數據流中還常常使用非正式、不規則和縮 寫的詞。最后,社交平臺也常常存在著廣告、色情、病毒和網絡釣魚等惡意內容。
本發明主要嘗試如何在實時情況下基于微博數據流對突發事件進行檢測與識別。對 于事件檢測與識別,具體包括事件演化演變等。通過歷史事件信息實現對事件的持續追蹤, 借此來探究事件的演化和演變。目前,盡管在實時事件檢測與識別等方面存在不少研究成果 和一些有效的解決方案,但這些突發事件識別方法大多僅實現了對全球事件或區域性事件 (如國家)的檢測與識別(例如大規模自然災害、武裝沖突等),并未對小范圍的事件(如 局部疫情,森林火災等)進行檢測與識別。除此之外,一些方法多需要人為設定事件數目, 事件種類等信息,這往往需要大料的先驗知識和人工標注數據。而本發明實現的方法無需任 何先驗知識,也不需要人工標注,即可生成關于突發事件的詞云描述。
發明內容
為了解決上述問題,本發明針對現有大規模微博消息流研究的不足之處和微博事件 流數據結構及內容形式的復雜性,提供一種無需關于事件的任何先驗知識,即可快速且準確 的檢測和識別突發事件微博數據流的檢測系統。
為達到上述目的,本發明采用的技術方案是:一種實時識別突發事件微博數據流的 檢測系統,包括:依次串聯的實體抽取模塊、旁接了趨勢識別模塊的實體過濾模塊,相似度 計算模塊、相似度過濾模塊、聚類鏈接模塊、聚類定級模塊和數據存儲模塊,構建一個從原 始微博數據流到事件檢測、識別和存儲的全流程系統,其特征在于:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于西南電子技術研究所(中國電子科技集團公司第十研究所),未經西南電子技術研究所(中國電子科技集團公司第十研究所)許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011566168.0/2.html,轉載請聲明來源鉆瓜專利網。





