[發(fā)明專利]一種基于多特征融合的微博突發(fā)事件檢測方法有效
| 申請?zhí)枺?/td> | 202011481477.8 | 申請日: | 2020-12-15 |
| 公開(公告)號: | CN112528024B | 公開(公告)日: | 2022-11-18 |
| 發(fā)明(設(shè)計)人: | 劉聰;楊靜;王勇;曲連威;辛顯楠 | 申請(專利權(quán))人: | 哈爾濱工程大學(xué) |
| 主分類號: | G06F16/35 | 分類號: | G06F16/35;G06F40/216;G06F40/289;G06K9/62 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 150001 黑龍江省哈爾濱市南崗區(qū)*** | 國省代碼: | 黑龍江;23 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 特征 融合 突發(fā)事件 檢測 方法 | ||
1.一種基于多特征融合的微博突發(fā)事件檢測方法,其特征在于,所述突發(fā)事件檢測方法包括以下步驟:
步驟1:對微博數(shù)據(jù)集進行噪音的過濾和時間窗的劃分;
步驟2:對步驟1噪音過濾和時間窗劃分的數(shù)據(jù),進行面向詞語級別的預(yù)處理,得到分詞且詞性篩選過的低噪高可用性的文本數(shù)據(jù)集和詞頻數(shù)據(jù)集;
步驟3:對步驟2中的預(yù)處理后的文本數(shù)據(jù)集進行基于多特征的詞語權(quán)重的計算,最終根據(jù)提取的突發(fā)度篩選出面向多特征的詞語的突發(fā)詞集;
步驟4:對步驟3的突發(fā)詞集進行基于詞語共現(xiàn)性的相似度計算,最終根據(jù)計算結(jié)果構(gòu)建詞語-詞語相似度矩陣;
步驟5:對步驟4的相似度矩陣進行面向自底向上的凝聚式層次聚類,最終根據(jù)聚類結(jié)果匹配原文本得到基于多特征的突發(fā)事件。
2.根據(jù)權(quán)利要求1所述一種基于多特征融合的微博突發(fā)事件檢測方法,其特征在于,所屬步驟1具體為:通過對微博數(shù)據(jù)集進行基于表情符號、URL鏈接、互動標(biāo)簽、話題標(biāo)簽等噪音的過濾,將過濾后的數(shù)據(jù)按照時間特征劃分到不同的時間窗內(nèi),最終得到噪音過濾和時間窗劃分的數(shù)據(jù)集。
3.根據(jù)權(quán)利要求1所述一種基于多特征融合的微博突發(fā)事件檢測方法,其特征在于,所述步驟2具體為,將噪音過濾和時間窗劃分的數(shù)據(jù)進行分詞,由于事件的描述主要由名詞、動詞、形容詞等組成,所以進行基于分詞詞性的篩選,具體包含動詞、名詞、形容詞、數(shù)詞、量詞、代詞詞性,對進行停用詞處理并統(tǒng)計詞頻,最終得到低噪高可用性的文本數(shù)據(jù)集和詞頻數(shù)據(jù)集。
4.根據(jù)權(quán)利要求1所述一種基于多特征融合的微博突發(fā)事件檢測方法,其特征在于,所述步驟3包括以下步驟,
步驟3.1:根據(jù)預(yù)處理后的高可用性文本數(shù)據(jù)集和詞頻數(shù)據(jù)集進行詞語的基礎(chǔ)權(quán)重和突發(fā)權(quán)重的計算:
其中BW為詞語基礎(chǔ)權(quán)重,pi為詞i在當(dāng)前時間窗中的詞頻,max(p)為當(dāng)前時間窗中最大的詞頻,當(dāng)該公式基數(shù)相當(dāng)大時,能夠保證計算的結(jié)果不會趨近于0,進而保證后續(xù)的計算不會被0所影響;
其中TW為詞語的突發(fā)權(quán)重,pn為當(dāng)前事件窗內(nèi)詞語i的頻率,pi為某個時間窗中詞i的頻率。
步驟3.2:考慮到微博文本的轉(zhuǎn)發(fā)數(shù)、點贊數(shù)、評論數(shù)對詞語的突發(fā)性會產(chǎn)生影響,通過下列公式進行詞語所受微博的影響的計算:
其中α,β分別為評論數(shù)和轉(zhuǎn)發(fā)數(shù)的權(quán)重比例,com、for、agr分別表示微博文本的評論數(shù),轉(zhuǎn)發(fā)數(shù)和點贊數(shù),max()表示取最大值sum()表示取均值計算;
步驟3.3:對詞語基礎(chǔ)權(quán)重、突發(fā)權(quán)重、詞語所受微博影響進行加權(quán),通過下列公式進行文本自身屬性對詞語突發(fā)性的影響的計算:
Weight=α*BW+β*TW+(1-α-β)*WE
其中BW為基礎(chǔ)權(quán)重,TW為突發(fā)權(quán)重,WE為詞語所受微博影響,α,β為上式權(quán)重;
步驟3.4:通過下列公式進行對用戶影響力對詞語突發(fā)性影響的計算:
其中α+β+γ=1,這里ave()為含有詞語i所對應(yīng)的微博發(fā)布用戶的粉絲數(shù)、微博數(shù)、是否經(jīng)過大V認證的平均值,max()為當(dāng)前時間窗中粉絲數(shù)、微博數(shù)的最大值,當(dāng)用戶經(jīng)過大V認證其值為1,否則為0.5;
步驟3.5:通過下列公式進行綜合權(quán)重即突發(fā)度的計算:
Final=α*user+(1-α)*Weight
其中α為權(quán)重比例。
5.根據(jù)權(quán)利要求1所述一種基于多特征融合的微博突發(fā)事件檢測方法,其特征在于,所述步驟4具體為,計算詞語之間相似度,相似度取決于兩個詞語共同出現(xiàn)的概率,使用相對出現(xiàn)相似度進行詞語之間共現(xiàn)相似度的計算,當(dāng)兩詞之間共現(xiàn)度越大,相似度越大。
通過下列公式進行詞語之間的相似度計算:
其中pt是當(dāng)前時間窗內(nèi)包含的所有微博文本,R(wk|wl)表示在wl出現(xiàn)的情況下,wk出現(xiàn)的概率,Pj是同時包含以上兩詞的文本。該計算方法避免了文本的基數(shù)過大導(dǎo)致相似度的計算結(jié)果過小的問題。
6.根據(jù)權(quán)利要求1所述一種基于多特征融合的微博突發(fā)事件檢測方法,其特征在于,所述步驟5具體為,首先將所有詞都看成一個個獨立的類簇,將相似度滿足初始設(shè)定的閾值條件類簇進行合并,離差交錯更新類簇相似度,重復(fù)進行合并,直到所有類簇均不滿足條件為止,剩下的類簇即為最終結(jié)果,根據(jù)生成的類簇獲取原事件,實現(xiàn)突發(fā)事件檢測。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于哈爾濱工程大學(xué),未經(jīng)哈爾濱工程大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011481477.8/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 突發(fā)事件解除判定系統(tǒng)
- 交通信息系統(tǒng)及交通信息處理方法
- 突發(fā)事件下鐵路行車調(diào)整系統(tǒng)
- 一種電力突發(fā)事件案例適配決策方法
- 突發(fā)事件的應(yīng)急處理方案獲取方法及裝置
- 一種突發(fā)事件報事方法及裝置
- 一種突發(fā)事件處理方法、系統(tǒng)和存儲介質(zhì)
- 一種突發(fā)事件的響應(yīng)方法、裝置、存儲介質(zhì)及設(shè)備
- 突發(fā)事件本體模型構(gòu)建方法、裝置、設(shè)備及存儲介質(zhì)
- 一種基于突發(fā)火災(zāi)事件相似度計算的城市應(yīng)急消防優(yōu)化方法





