[發(fā)明專利]一種基于多特征融合的微博突發(fā)事件檢測(cè)方法有效
| 申請(qǐng)?zhí)枺?/td> | 202011481477.8 | 申請(qǐng)日: | 2020-12-15 |
| 公開(公告)號(hào): | CN112528024B | 公開(公告)日: | 2022-11-18 |
| 發(fā)明(設(shè)計(jì))人: | 劉聰;楊靜;王勇;曲連威;辛顯楠 | 申請(qǐng)(專利權(quán))人: | 哈爾濱工程大學(xué) |
| 主分類號(hào): | G06F16/35 | 分類號(hào): | G06F16/35;G06F40/216;G06F40/289;G06K9/62 |
| 代理公司: | 暫無(wú)信息 | 代理人: | 暫無(wú)信息 |
| 地址: | 150001 黑龍江省哈爾濱市南崗區(qū)*** | 國(guó)省代碼: | 黑龍江;23 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 特征 融合 突發(fā)事件 檢測(cè) 方法 | ||
1.一種基于多特征融合的微博突發(fā)事件檢測(cè)方法,其特征在于,所述突發(fā)事件檢測(cè)方法包括以下步驟:
步驟1:對(duì)微博數(shù)據(jù)集進(jìn)行噪音的過濾和時(shí)間窗的劃分;
步驟2:對(duì)步驟1噪音過濾和時(shí)間窗劃分的數(shù)據(jù),進(jìn)行面向詞語(yǔ)級(jí)別的預(yù)處理,得到分詞且詞性篩選過的低噪高可用性的文本數(shù)據(jù)集和詞頻數(shù)據(jù)集;
步驟3:對(duì)步驟2中的預(yù)處理后的文本數(shù)據(jù)集進(jìn)行基于多特征的詞語(yǔ)權(quán)重的計(jì)算,最終根據(jù)提取的突發(fā)度篩選出面向多特征的詞語(yǔ)的突發(fā)詞集;
步驟4:對(duì)步驟3的突發(fā)詞集進(jìn)行基于詞語(yǔ)共現(xiàn)性的相似度計(jì)算,最終根據(jù)計(jì)算結(jié)果構(gòu)建詞語(yǔ)-詞語(yǔ)相似度矩陣;
步驟5:對(duì)步驟4的相似度矩陣進(jìn)行面向自底向上的凝聚式層次聚類,最終根據(jù)聚類結(jié)果匹配原文本得到基于多特征的突發(fā)事件。
2.根據(jù)權(quán)利要求1所述一種基于多特征融合的微博突發(fā)事件檢測(cè)方法,其特征在于,所屬步驟1具體為:通過對(duì)微博數(shù)據(jù)集進(jìn)行基于表情符號(hào)、URL鏈接、互動(dòng)標(biāo)簽、話題標(biāo)簽等噪音的過濾,將過濾后的數(shù)據(jù)按照時(shí)間特征劃分到不同的時(shí)間窗內(nèi),最終得到噪音過濾和時(shí)間窗劃分的數(shù)據(jù)集。
3.根據(jù)權(quán)利要求1所述一種基于多特征融合的微博突發(fā)事件檢測(cè)方法,其特征在于,所述步驟2具體為,將噪音過濾和時(shí)間窗劃分的數(shù)據(jù)進(jìn)行分詞,由于事件的描述主要由名詞、動(dòng)詞、形容詞等組成,所以進(jìn)行基于分詞詞性的篩選,具體包含動(dòng)詞、名詞、形容詞、數(shù)詞、量詞、代詞詞性,對(duì)進(jìn)行停用詞處理并統(tǒng)計(jì)詞頻,最終得到低噪高可用性的文本數(shù)據(jù)集和詞頻數(shù)據(jù)集。
4.根據(jù)權(quán)利要求1所述一種基于多特征融合的微博突發(fā)事件檢測(cè)方法,其特征在于,所述步驟3包括以下步驟,
步驟3.1:根據(jù)預(yù)處理后的高可用性文本數(shù)據(jù)集和詞頻數(shù)據(jù)集進(jìn)行詞語(yǔ)的基礎(chǔ)權(quán)重和突發(fā)權(quán)重的計(jì)算:
其中BW為詞語(yǔ)基礎(chǔ)權(quán)重,pi為詞i在當(dāng)前時(shí)間窗中的詞頻,max(p)為當(dāng)前時(shí)間窗中最大的詞頻,當(dāng)該公式基數(shù)相當(dāng)大時(shí),能夠保證計(jì)算的結(jié)果不會(huì)趨近于0,進(jìn)而保證后續(xù)的計(jì)算不會(huì)被0所影響;
其中TW為詞語(yǔ)的突發(fā)權(quán)重,pn為當(dāng)前事件窗內(nèi)詞語(yǔ)i的頻率,pi為某個(gè)時(shí)間窗中詞i的頻率。
步驟3.2:考慮到微博文本的轉(zhuǎn)發(fā)數(shù)、點(diǎn)贊數(shù)、評(píng)論數(shù)對(duì)詞語(yǔ)的突發(fā)性會(huì)產(chǎn)生影響,通過下列公式進(jìn)行詞語(yǔ)所受微博的影響的計(jì)算:
其中α,β分別為評(píng)論數(shù)和轉(zhuǎn)發(fā)數(shù)的權(quán)重比例,com、for、agr分別表示微博文本的評(píng)論數(shù),轉(zhuǎn)發(fā)數(shù)和點(diǎn)贊數(shù),max()表示取最大值sum()表示取均值計(jì)算;
步驟3.3:對(duì)詞語(yǔ)基礎(chǔ)權(quán)重、突發(fā)權(quán)重、詞語(yǔ)所受微博影響進(jìn)行加權(quán),通過下列公式進(jìn)行文本自身屬性對(duì)詞語(yǔ)突發(fā)性的影響的計(jì)算:
Weight=α*BW+β*TW+(1-α-β)*WE
其中BW為基礎(chǔ)權(quán)重,TW為突發(fā)權(quán)重,WE為詞語(yǔ)所受微博影響,α,β為上式權(quán)重;
步驟3.4:通過下列公式進(jìn)行對(duì)用戶影響力對(duì)詞語(yǔ)突發(fā)性影響的計(jì)算:
其中α+β+γ=1,這里ave()為含有詞語(yǔ)i所對(duì)應(yīng)的微博發(fā)布用戶的粉絲數(shù)、微博數(shù)、是否經(jīng)過大V認(rèn)證的平均值,max()為當(dāng)前時(shí)間窗中粉絲數(shù)、微博數(shù)的最大值,當(dāng)用戶經(jīng)過大V認(rèn)證其值為1,否則為0.5;
步驟3.5:通過下列公式進(jìn)行綜合權(quán)重即突發(fā)度的計(jì)算:
Final=α*user+(1-α)*Weight
其中α為權(quán)重比例。
5.根據(jù)權(quán)利要求1所述一種基于多特征融合的微博突發(fā)事件檢測(cè)方法,其特征在于,所述步驟4具體為,計(jì)算詞語(yǔ)之間相似度,相似度取決于兩個(gè)詞語(yǔ)共同出現(xiàn)的概率,使用相對(duì)出現(xiàn)相似度進(jìn)行詞語(yǔ)之間共現(xiàn)相似度的計(jì)算,當(dāng)兩詞之間共現(xiàn)度越大,相似度越大。
通過下列公式進(jìn)行詞語(yǔ)之間的相似度計(jì)算:
其中pt是當(dāng)前時(shí)間窗內(nèi)包含的所有微博文本,R(wk|wl)表示在wl出現(xiàn)的情況下,wk出現(xiàn)的概率,Pj是同時(shí)包含以上兩詞的文本。該計(jì)算方法避免了文本的基數(shù)過大導(dǎo)致相似度的計(jì)算結(jié)果過小的問題。
6.根據(jù)權(quán)利要求1所述一種基于多特征融合的微博突發(fā)事件檢測(cè)方法,其特征在于,所述步驟5具體為,首先將所有詞都看成一個(gè)個(gè)獨(dú)立的類簇,將相似度滿足初始設(shè)定的閾值條件類簇進(jìn)行合并,離差交錯(cuò)更新類簇相似度,重復(fù)進(jìn)行合并,直到所有類簇均不滿足條件為止,剩下的類簇即為最終結(jié)果,根據(jù)生成的類簇獲取原事件,實(shí)現(xiàn)突發(fā)事件檢測(cè)。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于哈爾濱工程大學(xué),未經(jīng)哈爾濱工程大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011481477.8/1.html,轉(zhuǎn)載請(qǐng)聲明來源鉆瓜專利網(wǎng)。
- 突發(fā)事件解除判定系統(tǒng)
- 交通信息系統(tǒng)及交通信息處理方法
- 突發(fā)事件下鐵路行車調(diào)整系統(tǒng)
- 一種電力突發(fā)事件案例適配決策方法
- 突發(fā)事件的應(yīng)急處理方案獲取方法及裝置
- 一種突發(fā)事件報(bào)事方法及裝置
- 一種突發(fā)事件處理方法、系統(tǒng)和存儲(chǔ)介質(zhì)
- 一種突發(fā)事件的響應(yīng)方法、裝置、存儲(chǔ)介質(zhì)及設(shè)備
- 突發(fā)事件本體模型構(gòu)建方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)
- 一種基于突發(fā)火災(zāi)事件相似度計(jì)算的城市應(yīng)急消防優(yōu)化方法





