[發明專利]一種基于社交媒體突發事件的信息獲取方法及系統在審
| 申請號: | 201811465983.0 | 申請日: | 2018-12-03 |
| 公開(公告)號: | CN109597926A | 公開(公告)日: | 2019-04-09 |
| 發明(設計)人: | 劉曉慧;曾行行 | 申請(專利權)人: | 山東建筑大學 |
| 主分類號: | G06F16/951 | 分類號: | G06F16/951;G06F16/35;G06F17/27;G06K9/62;G06Q50/00 |
| 代理公司: | 濟南誠智商標專利事務所有限公司 37105 | 代理人: | 李修杰 |
| 地址: | 250101 山東省*** | 國省代碼: | 山東;37 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 分類 突發事件 樸素貝葉斯分類器 支持向量機分類器 信息獲取 第一級 語料庫 過濾 地震信息 文本分類 信息分類 災害事件 爬蟲 預測 構建 篩選 決策 制定 | ||
本發明提供了一種基于社交媒體突發事件的信息獲取方法及系統,包括:S1、構建突發事件的語料庫;S2、利用支持向量機分類器進行非突發事件分類過濾,實現第一級分類;S3、利用樸素貝葉斯分類器進行正負類預測分類,實現第二級分類。本發明通過爬蟲對社交媒體進行相關關鍵詞的語料庫獲取,利用支持向量機分類器進行非突發事件分類過濾,實現第一級分類,利用樸素貝葉斯分類器進行正負類預測分類,實現第二級分類,實現信息分類精度相對于沒有經過非即時地震信息篩選的結果提高2.9%,F?Measure的值提高2.6%,解決了現有技術中文本分類結果精度低的問題,實現了分類精度的提升,有助于決策者對于災害事件的掌控,為決策的制定提供依據。
技術領域
本發明涉及數據挖掘技術領域,特別是一種基于社交媒體突發事件的信息獲取方法及系統。
背景技術
傳統的突發事件應急信息是由官方或權威機構采集、整理、發布的。其缺點主要表現在:采集過程缺乏大眾的參與和反饋,信息來源比較單一;采集時效性低,甚至在突發事件發生后一段時間內不能及時獲取事件的任何信息,如重大自然災害;信息傳播方向為官方至大眾,呈單向流動,缺少反饋和溝通。這些不足使得傳統的突發事件應急信息難以滿足及時、有效、合理處置突發事件的需求。
社交媒體越來越多地被看作是隨人群移動的傳感器,感知著發生在周邊的事件以及遠處的其他突發事件,并在網絡中互相共享和溝通。一旦某地有突發事件發生,事發地的人們會第一時間通過文字、圖片以及視頻向互聯網廣播事件的狀態。與此同時,處在事發地外圍的人們在社交網絡上看到相關報道或講述后,會紛紛作出及時的響應,最后與事件相關的信息就會很快充斥著整個社交網絡。突發事件信息以社交媒體數據的形式在社交網絡中廣泛傳播。
綜上所述,社交媒體具有的自發性、及時性、廣泛參與性、內容多樣性正好彌補了傳統突發事件應急信息的不足。面對海量的社交媒體數據,如何快速、及時、準確地從中挖掘出突發事件應急信息是需要研究的關鍵問題。
2015年學者白華在《基于中文短文本分類的社交媒體災害事件檢測系統研究》論文中提出基于支持向量機進行突發地震信息的提取,并且將最終結果的結果在地圖上進行可視化,由于沒有對算法進行改進,僅選取文本特征組合和幾種分類方法中效果較好的支持向量機分類算法,分類結果勉強能接受。
學者吳新華在2017年文中《吳新華與欒翠菊,基于微博文本分類的突發地震事件檢測方法》提出基于關鍵詞過濾和時間關系識別的方法進行提高分類結果,使得F1指標上升了5.3%,但是時間關系識別的方法引入了大量的正則關系表達式,忽略了文本的語義關系,使得該模型在正則表達式規則之外的結果就不能精確識別,有一定的局限性。
發明內容
本發明的目的是提供一種基于社交媒體突發事件的信息獲取方法及系統,旨在解決現有技術中文本分類結果精度低的問題,實現了分類精度的提升,有助于為突發事件決策的制定提供依據。
為達到上述技術目的,本發明提供了一種基于社交媒體突發事件的信息獲取方法,所述方法包括以下步驟:
S1、構建突發事件的語料庫;
S2、利用支持向量機分類器進行非突發事件分類過濾,實現第一級分類;
S3、利用樸素貝葉斯分類器進行正負類預測分類,實現第二級分類。
優選地,所述步驟S1具體包括以下操作:
對爬蟲獲取的數據進行文本去重、去主題無關詞、去停用詞以及文本分詞處理;
構建向量空間,用向量表示每個文本。
優選地,所述文本去重具體為:
在爬蟲爬行過程中設置社交媒體的參數,對社交媒體內容完全一樣或是轉發的認定為重復。
優選地,所述去主題無關詞具體為:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于山東建筑大學,未經山東建筑大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201811465983.0/2.html,轉載請聲明來源鉆瓜專利網。





