[發明專利]一種微博突發事件檢測方法有效
| 申請號: | 201810490699.2 | 申請日: | 2018-05-21 |
| 公開(公告)號: | CN108733816B | 公開(公告)日: | 2022-02-01 |
| 發明(設計)人: | 陳紅陽 | 申請(專利權)人: | 重慶人文科技學院 |
| 主分類號: | G06F16/9535 | 分類號: | G06F16/9535;G06F16/35 |
| 代理公司: | 重慶博凱知識產權代理有限公司 50212 | 代理人: | 黃河 |
| 地址: | 401572 重慶*** | 國省代碼: | 重慶;50 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 突發事件 檢測 方法 | ||
本申請公開了一種微博突發事件檢測方法,包括獲取微博文本數據集;基于微博文本關注度及微博文本對應的發布者的影響力對微博文本數據集進行噪聲過濾;以預設時長建立多個時間窗,將微博文本數據集中的微博文本劃分至相應的時間窗中;對每個時間窗內的微博文本進行預處理;基于預設特征屬性提取每個時間窗的突發特征詞集;分別計算目標時間窗內的突發特征詞之間的相似度;生成目標時間窗的突發事件。本申請在進行微博突發事件檢測時充分考慮了微博文本關注度與發布者的影響力對微博突發事件檢測的影響,且充分考慮了微博的情感傾向性、詞頻統計、詞頻增長率與TF?PDF權重等因素對突發特征詞識別的影響,提高了突發事件檢測的精準度。
技術領域
本發明涉及網絡檢測技術領域,尤其涉及一種微博突發事件檢測方法。
背景技術
微博是近年來興起的、支持跨平臺的信息互動交流的社會化媒體,因其簡單、快捷的使用方式,受到廣大發布者的青睞。大量新奇、熱點時事以及短時爆發的突發事件等首見于此,并及時得到快速傳播。采用突發事件檢測技術對海量微博文本信息進行歸類、組織,識別其所蘊含的突發事件信息呈現給發布者,既可解決信息過載問題,又可為政府、企業、組織機構等部門應對突發事件制定應急決策提供數據支撐,進一步正確引導微博輿情朝向健康方向發展,維護社會秩序,保持和諧與穩定。因此,研究針對微博文本的突發事件檢測技術具有重要的理論價值和現實意義。
微博突發事件檢測(Burst Event Detection,簡稱BED),主要是通過一定的檢測算法從海量微博數據中挖掘出含有突發性特征的事件,從而識別微博平臺中的突發事件。目前,微博突發事件檢測技術主要有基于聚類的突發事件檢測技術與基于特征的突發事件檢測技術兩類,且后者是主流的技術,應用較廣泛。研究者針對微博噪聲去除以及突發特征詞識別方面展開了相應的研究,并取得初步成果。《突發事件檢測與關鍵節點挖掘研究》提出基于詞性與特定格式的微博噪聲數據過濾方法;《基于爆發詞識別的微博突發事件監測方法研究》提出基于微博文本字數、發布者粉絲數、標簽標注與特定格式的微博噪聲數據過濾方法;文獻《基于突發特征詞與情感分析的微博突發事件監測研究》則提出了基于噪聲詞典、噪聲發布者及特定格式的微博噪聲數據過濾方法。這些方法雖一定程度上去除了有礙于微博突發事件檢測的噪聲數據,但未能充分考慮微博文本關注度與發布者的影響力對微博突發事件檢測的影響。
《中文微博突發事件檢測研究》提出基于詞頻統計、詞增長率與TF-PDF權重計算的微博突發特征詞識別算法;《基于突發特征詞聚類的微博突發事件檢測方法》結合發布者影響力和詞語的TF-IDF權重,提出基于突發度的微博突發特征詞識別算法;《基于突發主題詞和凝聚式層次聚類的微博突發事件檢測研究》提出基于詞頻、文本頻率、話題標簽以及詞頻增長率特征的微博突發特征詞識別算法;《基于KL距離的微博突發話題檢測研究》提出基于詞頻、文本頻率、發布者影響力以及TF-PDF的微博突發特征詞識別算法。上述方法均是從某幾個方面出發,設計微博突發特征詞識別算法,有助于微博突發事件的檢測,但未能綜合考慮微博的情感傾向性、詞頻統計、詞頻增長率與TF-PDF權重等因素對突發特征詞識別的影響,有失偏頗。
因此,如何在進行微博突發事件檢測時充分考慮微博文本關注度與發布者的影響力對微博突發事件檢測的影響,且充分考慮微博的情感傾向性、詞頻統計、詞頻增長率與TF-PDF權重等因素對突發特征詞識別的影響,成為了本領域技術人員亟需解決的問題。
發明內容
針對現有技術存在的上述不足,本發明要解決的技術問題是:如何在進行微博突發事件檢測時充分考慮微博文本關注度與發布者的影響力對微博突發事件檢測的影響,且充分考慮微博的情感傾向性、詞頻統計、詞頻增長率與TF-PDF權重等因素對突發特征詞識別的影響。
為解決上述技術問題,本發明采用了如下的技術方案:
一種微博突發事件檢測方法,包括:
步驟1:獲取微博文本數據集D;
步驟2:基于微博文本關注度及微博文本對應的發布者的影響力對微博文本數據集D進行噪聲過濾;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于重慶人文科技學院,未經重慶人文科技學院許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810490699.2/2.html,轉載請聲明來源鉆瓜專利網。





