[發明專利]基于主題模型的網絡突發熱點事件檢測方法有效
| 申請號: | 201110226821.3 | 申請日: | 2011-08-09 |
| 公開(公告)號: | CN102289487A | 公開(公告)日: | 2011-12-21 |
| 發明(設計)人: | 張寅;邵健;劉霄;吳飛 | 申請(專利權)人: | 浙江大學 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 杭州求是專利事務所有限公司 33200 | 代理人: | 張法高 |
| 地址: | 310027 浙*** | 國省代碼: | 浙江;33 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 主題 模型 網絡 突發 熱點 事件 檢測 方法 | ||
技術領域
本發明涉及主題模型、事件檢測領域,尤其涉及一種基于主題模型的網絡熱點事件檢測方法。
背景技術
隨著網絡技術的快速發展和廣泛應用,互聯網逐漸成為人們獲知信息的重要渠道,全球范圍內每天都會有數以億計的網絡信息涌現,如何在海量網絡信息中檢測出突發熱點事件已經成為了一個新興的研究課題。
傳統的主題模型,如PLSA(Probabilistic?Latent?Semantic?Analysis)、LDA(Latent?Dirichlet?Allocation)等,都可以用來對一個文檔集進行主題挖掘,它們通過迭代計算,近似的描述出文檔集中的每個主題。但是這些主題模型都是基于BOW(Bag?Of?Words)模型,只考慮了單詞和文檔的從屬關系,忽略了單詞和文檔的時間信息,所以通過它們建模更容易得到時間無關的靜態主題(如體育、娛樂、科技等),但很難得到時間相關的突發事件主題(如日本地震、911襲擊等)。
為了克服這一不足,Li等人提出了一種基于突發特征的突發熱點事件檢測方法,將網絡新聞標題聚類成若干個候選主題,然后根據定義的特征規則對候選主題進行篩選,得到最終的突發事件主題。
這種方法雖然能夠檢測出一定的網絡突發事件,但是依然存在一些缺陷:1)聚類并不是最佳的主題建模方法,相比而言,主題模型更適合用于主題挖掘;2)在生成候選主題時,該方法沒有根據時序數據的突發特性對原始數據進行優化處理,導致候選主題中存在較多時間無關的靜態主題。另一方面,我們所關心的突發事件主題也會由于靜態主題的干擾而被弱化。
針對這些方法的不足,我們提出了一種基于主題模型的網絡突發熱點事件檢測方法,并將其運用在了Twitter數據集上。該方法首先針對突發事件的時間特性,對單詞和文檔進行篩選,然后在數據集上進行主題建模,再對得到的主題進行熱點事件篩選、消除重復處理,最終得到k個突發熱點事件。同時我們還會分別使用特征單詞和特征文檔對突發熱點事件進行形象化描述,并且計算出每個事件的關注度日期變化。
發明內容
本發明的目的是克服現有推薦技術的不足,提供一種基于主題模型的網絡突發熱點事件檢測方法。
基于主題模型的網絡突發熱點事件檢測方法包括如下步驟:
1)首先對文檔數據集進行分詞處理,得到單詞列表、文檔單詞關系矩陣、單詞文檔分布矩陣、單詞日期分布矩陣;
2)根據文檔單詞關系矩陣、單詞文檔分布矩陣、單詞日期分布矩陣計算單詞和文檔的突發特性,并據此對數據集進行篩選;
3)然后對篩選后的數據集進行主題建模得到突發熱點事件的特征單詞和特征文本;
4)根據熱點事件的特征單詞、單詞日期分布矩陣計算熱點事件的關注度日期分布。
所述的一種基于主題模型的網絡突發熱點事件檢測方法,其特征在于所述的首先對文檔數據集進行分詞處理,得到單詞列表、文檔單詞關系矩陣、單詞文檔分布矩陣、單詞日期分布矩陣的步驟為:
1)從文檔數據集中提取出單詞列表W={(wi):i=1,2,...,l},并統計每個單詞在每個文檔中的出現次數,從而得到文檔單詞關系矩陣X={(xij):i=1,2,...,l;j=1,2,...,n},其中wi表示第i個單詞,xij表示單詞wi在文檔dj中出現的次數;
2)根據文檔單詞關系矩陣X得到單詞文檔分布矩陣C1={(c1i):i=1,2,...,l},其中c1i表示出現過單詞wi的文檔數量;
3)根據文檔單詞關系矩陣X和文檔日期分布得到單詞日期分布矩陣C2={(c2ij):i=1,2,...,l;j=1,2,...,p},其中c2ij表示單詞wi在日期j出現的次數,實際中,還在使用分布矩陣C2之前對其進行均值化處理,即c2ij=c2ij/sumj,sumj表示日期j當天出現的單詞總量,這樣消除文檔數量日期分布不均勻對突發性檢測的干擾。
所述的一種基于主題模型的網絡突發熱點事件檢測方法,其特征在于根據文檔單詞關系矩陣、單詞文檔分布矩陣、單詞日期分布矩陣計算單詞和文檔的突發特性,并據此對數據集進行篩選的步驟為:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于浙江大學,未經浙江大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201110226821.3/2.html,轉載請聲明來源鉆瓜專利網。





