[發明專利]基于主題模型的網絡突發熱點事件檢測方法有效
| 申請號: | 201110226821.3 | 申請日: | 2011-08-09 |
| 公開(公告)號: | CN102289487A | 公開(公告)日: | 2011-12-21 |
| 發明(設計)人: | 張寅;邵健;劉霄;吳飛 | 申請(專利權)人: | 浙江大學 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 杭州求是專利事務所有限公司 33200 | 代理人: | 張法高 |
| 地址: | 310027 浙*** | 國省代碼: | 浙江;33 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 主題 模型 網絡 突發 熱點 事件 檢測 方法 | ||
1.一種基于主題模型的網絡突發熱點事件檢測方法,其特征在于包括如下步驟:
1)首先對文檔數據集進行分詞處理,得到單詞列表、文檔單詞關系矩陣、單詞文檔分布矩陣、單詞日期分布矩陣;
2)根據文檔單詞關系矩陣、單詞文檔分布矩陣、單詞日期分布矩陣計算單詞和文檔的突發特性,并據此對數據集進行篩選;
3)然后對篩選后的數據集進行主題建模得到突發熱點事件的特征單詞和特征文本;
4)根據熱點事件的特征單詞、單詞日期分布矩陣計算熱點事件的關注度日期分布。
2.根據權利要求1所述的一種基于主題模型的網絡突發熱點事件檢測方法,其特征在于所述的首先對文檔數據集進行分詞處理,得到單詞列表、文檔單詞關系矩陣、單詞文檔分布矩陣、單詞日期分布矩陣的步驟為:
1)從文檔數據集中提取出單詞列表W={(wi):i=1,2,...,l},并統計每個單詞在每個文檔中的出現次數,從而得到文檔單詞關系矩陣X={(xij):i=1,2,...,l;j=1,2,...,n},其中wi表示第i個單詞,xij表示單詞wi在文檔dj中出現的次數;
2)根據文檔單詞關系矩陣X得到單詞文檔分布矩陣C1={(c1i):i=1,2,...,l},其中c1i表示出現過單詞wi的文檔數量;
3)根據文檔單詞關系矩陣X和文檔日期分布得到單詞日期分布矩陣C2={(c2ij):i=1,2,...,l;j=1,2,...,p},其中c2ij表示單詞wi在日期j出現的次數,實際中,還在使用分布矩陣C2之前對其進行均值化處理,即c2ij=c2ij/sumj,sumj表示日期j當天出現的單詞總量,這樣消除文檔數量日期分布不均勻對突發性檢測的干擾。
3.根據權利要求1所述的一種基于主題模型的網絡突發熱點事件檢測方法,其特征在于根據文檔單詞關系矩陣、單詞文檔分布矩陣、單詞日期分布矩陣計算單詞和文檔的突發特性,并據此對數據集進行篩選的步驟為:
1)根據單詞文檔分布矩陣C1對單詞進行篩選,首先定義文檔分布篩選系數β1、β2,并且0≤β1<β2≤1,然后使用函數WordFilter1對單詞進行篩選,其中n表示集合D中的文檔數量,通過小的系數β1,過濾掉出現頻率較低的生僻單詞,而大的系數β2則過濾掉出現頻率較高的事件無關單詞;
2)定義并計算每個單詞的突發特征值;
其中表示單詞wi日期分布的平均值,這里的突發指數其實就是單詞日期分布的標準差和平均值相除的結果,標準差用來描述單詞日期分布的突發性,除以平均值則抵消不同單詞整體出現頻率差異的影響,這樣得到的最終結果才準確的反應出每個單詞日期分布的突發性;
3)根據突發特征值對單詞進行篩選,單詞突發指數反映了單詞和突發事件相關的可能性,在此基礎上定義單詞篩選函數:
這里φ為單詞突發指數閾值,用于過濾突發性較低的單詞,除了使用固定閾值,還采用固定突發單詞數量以及固定突發單詞比例方式來篩選突發單詞;
4)根據突發單詞列表對文檔進行篩選,文檔過濾函數DocFilter定義如下:
即保留突發單詞數量大于0的文檔作為突發文檔,然后就得到突發文檔、突發單詞關系矩陣X′={(x′ij):i=1,2,...,l′;j=1,2,...,n′}。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于浙江大學,未經浙江大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201110226821.3/1.html,轉載請聲明來源鉆瓜專利網。





