[發明專利]基于突發詞檢測和過濾的微博突發話題檢測方法有效

申請號：	201910631334.1	申請日：	2019-07-12
公開（公告）號：	CN110489741B	公開（公告）日：	2022-06-21
發明（設計）人：	薛哲;杜軍平;張強	申請（專利權）人：	北京郵電大學
主分類號：	G06F40/279	分類號：	G06F40/279;G06F16/33
代理公司：	暫無信息	代理人：	暫無信息
地址：	100876 ***	國省代碼：	北京;11
權利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關鍵詞：	基于突發檢測過濾話題方法
鉆瓜網技術展會專利詞庫專利權人專利榜在售專利公布日期熱門專利

【權利要求書】：

1.一種基于突發詞檢測和過濾的微博突發話題檢測方法，其特征在于，該方法包括：

(1)基于詞突發值計算的突發詞檢測：根據分詞結果計算詞在一個時間片的突發值，在一個時間片內，獲取一個詞的累計詞頻、詞頻最高的詞的詞頻、包含這個詞的文檔和時間片內總文檔數，并計算詞的累計詞頻與最高詞頻的比值、包含詞的文檔數與總文檔數比值，對兩個比值進行加權處理，以輸出詞的基本權重，計算詞累計詞頻的增長速度作為突發權重，其中，詞的累計詞頻表示當前時間片內所有文檔中，詞出現的累計次數，對兩個權重加權求和計算出突發值，

(2)基于突發值指數平均值的偽突發詞識別：計算詞在不同長度時間段內的突發值的指數平均值，計算兩個指數平均值的差值，再次計算差值在一個時間段內的指數平均值，比較兩個結果的大小確定詞突發值的變化趨勢，以此識別偽突發詞，

(3)基于話題關鍵字和突發詞相似度的突發話題識別：使用主題模型與聚類算法結合的方法來檢測時間片內的話題，使用主題模型計算當前時間片內的文本的主題分布；對當前時間片內的文本，通過聚類算法比較文本之間的余弦相似度得到聚類結果，每一個類是一個話題；選取每個話題文本中累計詞頻最高的三個詞為關鍵詞；當一個話題的關鍵詞包含當前時間片的突發詞時，這個話題是突發話題。

下載完整專利技術內容需要扣除積分，VIP會員可以免費下載。

免登錄下載普通用戶下載升級VIP會員，免費下載

該專利技術資料僅供研究查看技術是否侵權等信息，商用須獲得專利權人授權。該專利全部權利屬于北京郵電大學，未經北京郵電大學許可，擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作，請聯系【客服】

本文鏈接：http://www.szxzyx.cn/pat/books/201910631334.1/1.html，轉載請聲明來源鉆瓜專利網。