[發明專利]一種基于網絡媒體數據流發現并跟蹤熱點話題的方法、系統和裝置在審
| 申請號: | 201710282133.6 | 申請日: | 2017-04-26 |
| 公開(公告)號: | CN108804432A | 公開(公告)日: | 2018-11-13 |
| 發明(設計)人: | 唐曉麗;梁穎琪 | 申請(專利權)人: | 慧科訊業有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30;G06F17/27 |
| 代理公司: | 北京市君合律師事務所 11517 | 代理人: | 王昭林;唐宇 |
| 地址: | 中國香港灣仔告士打道1*** | 國省代碼: | 中國香港;81 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 熱點話題 文本數據 預處理 基于網絡媒體 數據流 過濾 話題 集合 分類算法 時間窗口 統計結果 網絡媒體 發現 構建 聚類 預設 合并 跟蹤 更新 統計 | ||
本發明提供了一種基于網絡媒體數據流發現熱點話題的方法,包括:根據預設的時間間隔,從網絡媒體平臺獲取當前時間窗口t內的多篇不同類型的文本數據,并對所獲取的數據進行預處理;采用分類算法識別經預處理的每篇文本數據的類別,并根據所識別的類別對各篇文本數據進行過濾;以各篇經預處理和過濾的文本數據作為輸入,統計關鍵詞共現關系;根據關鍵詞共現關系的統計結果,構建或更新對應的關鍵詞圖;按照預定的規則對關鍵詞圖進行逐步切分,以獲得作為候選話題集合的一系列子圖;針對候選話題集合中的各個候選話題,基于對應的子圖進行聚類合并,以獲取作為結果的熱點話題。本發明還提供了基于網絡媒體數據流發現熱點話題的系統和裝置。
技術領域
本發明屬于互聯網數據挖掘技術領域,特別涉及一種基于網絡媒體數據流發現并跟蹤熱點話題的方法、系統和裝置。
背景技術
計算機、通信以及網絡技術的迅速發展使包括PC、平板電腦、智能手機、網絡電視等在內的終端設備的性能不斷提高。相應地,互聯網媒體,特別是互聯網社交媒體,憑借其多元性、迅捷性、交互性、易復制性、多媒體化等特點,已逐漸成為大眾獲取新聞資訊的主要途徑之一。互聯網社交媒體作為人們溝通交流的工具,越來越多地被用于傳播新聞報道,更新個人狀態,發布目擊記錄和交流思想看法。社交媒體上的數據量每天以數百萬計的速度迅速增長,如何從海量的數據中實時發現和跟蹤熱點話題來為企業決策和政府輿情監控提供指引,已成為業界研究的熱點。
然而,現有的熱點話題發現和跟蹤技術方案或多或少存在以下缺陷:1)數據來源單一,發現的熱點話題不全面;2)對于采用聚類/主題模型進行熱點話題發現的方法,由于社交媒體數據簡短和不規范性,使得精確度較低;3)對于根據源數據類型將話題簡單定義為在特定時間地點常用/常見的關鍵詞、短語、話題標簽或文章等的方法,則存在無法對話題進行豐富的及語意層面的分析與描述的不足,并且無法實現對話題的跟蹤;4)對于單純采用圖搜索(例如廣度優先搜索)對詞共現圖(簡稱詞圖)進行切分以實現熱點話題發現的方法,由于詞圖體積較大,圖搜索算法復雜度高,算法效率低。
發明內容
本發明的目的是克服現有技術中的不足,提供一種熱點話題發現與跟蹤技術。本發明以互聯網媒體數據流為對象,以詞共現圖的構建/更新為基礎,通過對詞圖的逐步切分處理獲取候選話題集合,并進行候選話題聚類以實現對熱點話題的發現;進一步地,通過時間維度對發現的熱點話題進行對比,從而實現對熱點話題的跟蹤。
對應地,本發明提供了一種基于網絡媒體數據流發現熱點話題的方法,包括以下步驟:根據預設的時間間隔,從網絡媒體平臺獲取當前時間窗口t內的多篇不同類型的文本數據,并對所獲取的數據進行預處理;采用分類算法識別經預處理的每篇文本數據的類別,并根據所識別的類別對各篇文本數據進行過濾;以各篇經預處理和過濾的文本數據作為輸入,統計關鍵詞共現關系;根據關鍵詞共現關系的統計結果,構建或更新對應的關鍵詞圖;按照預定的規則對關鍵詞圖進行逐步切分,以獲得作為候選話題集合的一系列子圖;針對候選話題集合中的各個候選話題,基于對應的子圖進行聚類合并,以獲取作為結果的熱點話題。
優選地,所述關鍵詞圖中的節點由各個關鍵詞構成,所述關鍵詞圖中的邊由各個關鍵詞的共現關系構成。
優選地,所述構建或更新對應的關鍵詞圖的步驟包括:根據詞共現的統計結果為每條邊賦權值;根據每個節點所連接邊的權值為對應的節點賦權值。
優選地,所述按照預定的規則對關鍵詞圖進行逐步切分的步驟包括:根據關鍵詞圖中節點的權值信息,按照預定的規則選取節點集合;針對選取的節點集合,從權值最高的節點開始,計算每個當前節點與其鄰接點的緊密度;根據每個當前節點與其鄰接點的緊密度是否大于預定的第一閾值,將整個關鍵詞圖逐步切分為一系列子圖集合。
優選地,所述預定的規則包括:top-K個節點,top-K%個節點,權值高于閾值的節點,包含特定關鍵詞的節點,與特定行業、特定公司、特定產品和/或特定人物相關的節點,和/或所有節點。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于慧科訊業有限公司,未經慧科訊業有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710282133.6/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種基于大數據的關鍵詞效果分析方法
- 下一篇:信息推送方法和裝置





