[發明專利]一種微博網絡地域突發事件的檢測方法有效
| 申請號: | 201710455550.6 | 申請日: | 2017-06-15 |
| 公開(公告)號: | CN107273496B | 公開(公告)日: | 2020-07-28 |
| 發明(設計)人: | 仲兆滿;管燕;李存華 | 申請(專利權)人: | 淮海工學院 |
| 主分類號: | G06F16/35 | 分類號: | G06F16/35;G06F16/9536;G06F40/289;G06Q50/00 |
| 代理公司: | 連云港潤知專利代理事務所 32255 | 代理人: | 劉喜蓮 |
| 地址: | 222000 江蘇省連云港市海*** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 網絡 地域 突發事件 檢測 方法 | ||
1.一種微博網絡地域突發事件的檢測方法,其特征在于,其具體步驟如下:
A、從微博網絡中采集地域微博,得到微博集合PLMB,對微博預處理后得到微博集合LMB;
B、從微博集合LMB中提取突發詞,得到突發詞集合EW;
C、對EW中的突發詞進行聚類,假設有q個詞簇,得到突發事件詞簇EWC={ewc1,ewc2,…,ewcq};
所述步驟B的具體步驟如下:
B1、對LMB中的每條微博lmbi(1≤i≤n)進行分詞,n代表微博的條數,去除停用詞,保留名詞、動詞、地名、人名、專有名詞,得到最終的詞集合為LMBW={w1,w2,…,wr},假設有r個詞;
B2、計算詞wi(1≤i≤r)的頻率突發性,假設當前突發事件檢測的時間點為k,選取之前的p個時刻的歷史數據為參考,詞wi在k時間點的頻率突發性定義為:其中,分子為詞wi在k時間點出現的頻率,分母中的
B3、計算詞wi(1≤i≤r)的關聯用戶突發性,假設當前突發事件檢測的時間點為k,選取之前的p個時刻的歷史數據為參考,詞wi在k時間點的關聯用戶突發性定義為:其中,分子為k時間點,提及到詞wi的不同用戶數量,分母中的
B4、計算詞wi(1≤i≤r)的地域突發性,詞wi在k時間點的分布地域突發性定義為:其中,分子為k時間點,提及到詞wi的不同地理標簽的數量,分母中的
B5、計算詞wi(1≤i≤r)的社交行為突發性,詞wi在k時間點的社交行為突發性定義為:其中,分子為k時間點,提及到詞wi的微博的轉發數、評論數和閱讀數之和,分母中的
B6、綜合步驟B2、B3、B4、B5的四個突發性,最終得到一個詞wi在k時間點的突發值為:BurstyScore(wi)=α*F(wi)+β*U(u|wi)+χ*GT(gt|wi)+δ*SB(sb|wi),其中,α、β、χ、δ為調節系數,用于調節四類指標的權重,α+β+χ+δ=1,α≥0,β≥0,χ≥0,δ≥0;
B7、在計算出每個詞的突發值后,使用四分差選出n個突發詞,構成突發詞集合EW;四分差的距離計算方法為:IQS(EW)=Q3(EW)-Q1(EW);當一個詞的突發值大于一定的閾值,則作為突發詞,閾值的計算方法為:maxima(EW)=Q3(EW)+1.5×IQS(EW)。
2.根據權利要求1所述的一種微博網絡地域突發事件的檢測方法,其特征在于:上述步驟A的具體步驟如下:
A1、使用采集工具獲取地域Localized的微博信息集合PLMB={plmb1,plmb2,…,plmbm}其中plmbi(1≤i≤m)為每一條地域微博;m代表地域微博的條數;
A2、對微博集合PLMB進行預處理,去除微博中鏈接網址、表情符號信息,去除長度小于5個字的微博,得到預處理后的微博集合LMB,LMB={lmb1,lmb2,…,lmbn}其中lmbi(1≤i≤n)為每一條地域微博。
3.根據權利要求1所述的一種微博網絡地域突發事件的檢測方法,其特征在于,所述步驟C的具體步驟如下:
C1、基于步驟B獲取的突發特征集EW,構建突發詞關聯網絡EWN=(V,E),V是突發詞集合EW,E表示突發詞之間的關聯強度;突發詞ewi、ewj關聯強度是統計兩個詞在同一篇微博博文中共現的次數;
C2、突發詞關聯網絡EWN構建完成后,使用開源的CLUTO工具包對EWN進行聚類,獲取突發事件詞簇EWC={ewc1,ewc2,…,ewcq},假設有q個詞簇。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于淮海工學院,未經淮海工學院許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710455550.6/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種瀏覽器無障礙插件
- 下一篇:一種漏洞信息采集方法和裝置





