[發明專利]基于突發詞檢測和過濾的微博突發話題檢測方法有效
| 申請號: | 201910631334.1 | 申請日: | 2019-07-12 |
| 公開(公告)號: | CN110489741B | 公開(公告)日: | 2022-06-21 |
| 發明(設計)人: | 薛哲;杜軍平;張強 | 申請(專利權)人: | 北京郵電大學 |
| 主分類號: | G06F40/279 | 分類號: | G06F40/279;G06F16/33 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 100876 *** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 突發 檢測 過濾 話題 方法 | ||
1.一種基于突發詞檢測和過濾的微博突發話題檢測方法,其特征在于,該方法包括:
(1)基于詞突發值計算的突發詞檢測:根據分詞結果計算詞在一個時間片的突發值,在一個時間片內,獲取一個詞的累計詞頻、詞頻最高的詞的詞頻、包含這個詞的文檔和時間片內總文檔數,并計算詞的累計詞頻與最高詞頻的比值、包含詞的文檔數與總文檔數比值,對兩個比值進行加權處理,以輸出詞的基本權重,計算詞累計詞頻的增長速度作為突發權重,其中,詞的累計詞頻表示當前時間片內所有文檔中,詞出現的累計次數,對兩個權重加權求和計算出突發值,
(2)基于突發值指數平均值的偽突發詞識別:計算詞在不同長度時間段內的突發值的指數平均值,計算兩個指數平均值的差值,再次計算差值在一個時間段內的指數平均值,比較兩個結果的大小確定詞突發值的變化趨勢,以此識別偽突發詞,
(3)基于話題關鍵字和突發詞相似度的突發話題識別:使用主題模型與聚類算法結合的方法來檢測時間片內的話題,使用主題模型計算當前時間片內的文本的主題分布;對當前時間片內的文本,通過聚類算法比較文本之間的余弦相似度得到聚類結果,每一個類是一個話題;選取每個話題文本中累計詞頻最高的三個詞為關鍵詞;當一個話題的關鍵詞包含當前時間片的突發詞時,這個話題是突發話題。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京郵電大學,未經北京郵電大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910631334.1/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:語義解析方法及相關產品
- 下一篇:一種分詞方法、裝置、電子設備及存儲介質





