[發明專利]一種基于增量聚類算法的微博話題檢測方法及系統在審
| 申請號: | 201710473108.6 | 申請日: | 2017-06-21 |
| 公開(公告)號: | CN107291886A | 公開(公告)日: | 2017-10-24 |
| 發明(設計)人: | 王萌;王曉榮;梁偉鄯 | 申請(專利權)人: | 廣西科技大學;廣西科技大學鹿山學院 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30;G06Q50/00 |
| 代理公司: | 北京國坤專利代理事務所(普通合伙)11491 | 代理人: | 郭偉紅 |
| 地址: | 545006 廣西*** | 國省代碼: | 廣西;45 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 增量 算法 話題 檢測 方法 系統 | ||
技術領域
本發明屬于話題檢測技術領域,具體涉及一種基于增量聚類算法的微博話題檢測方法及系統。
背景技術
隨著互聯網技術的發展及其應用的迅猛增長,特別是在web2.0技術興起之后,微博客(即微博)的應用由于其發布信息及時快捷,傳播速度快,傳播方式多樣越來越多網民的關注和喜愛。微博是一種基于用戶關系的信息分享、傳播以及獲取的平臺,可以通過互聯網、移動互聯網或者一些客戶端進行實時的信息分享與傳播。微博以最高140字的信息量發布消息,并配以圖片、聲音、視頻的文件為用戶提供豐富、多元化的信息分享與傳播。目前,微博已成為網民們表達自身各類情感的重要平臺,特別是目前國家對網絡謠言打擊力度不斷提高的今天,如何有效對微博進行管理已經成為信息安全領域的一個重要研究課題,其中重要的一點就是如何對網絡上微博話題的發現和甄別已經成為熱點研究問題。
在自然語言理解領域話題檢測與跟蹤(topic detection and tracking,TDT)已經有多年的研究歷史,其目標就是檢測相關信息并跟蹤事件的發展變化,它的主要研究內容包括兩部分,第一部分是話題檢測,話題檢測是在多個文檔集合中將相同話題聚類;另一部分是話題跟蹤,該部分主要是根據時間的順序退某一個相同話題下的相關事件做追蹤。由于微博的快速發展,目前有些研究人員已經將TDT的研究由傳統的文本載體引入到微博載體中,通過對微博的話題檢測與跟蹤達到及時發現微博熱點話題和微博熱點話題的實時進展等問題。微博與傳統文本相比,具有文本短、用戶群體層次差異大、用詞不規范、行文格式不嚴謹、文字口語化強等諸多特點,由于這些特點的存在給微博話題檢測帶來很大困難。由于上述原因,雖然話題檢測研究已進行多年,但由于數據采集的多樣性與特征抽取的不確定性,目前話題檢測主要集中在新聞報道等相關領域研究上,有關微博話題檢測的研究相對較少。
隨著微博的快速普及,以及在互聯網生活中扮演了越來越重要的角色,目前國內外一些學者也開始對微博數據進行相關研究,特別是在微博熱點話題檢測方面。Rui Long等人提出了一種面向微博數據的有效事件檢測追蹤的方法,他們通過對微博數據特征的聚類分析確定主題詞來進行微博數據中的事件檢測和追蹤;Ramage等人采取標注的潛在語言模型模型,將微博文本映射到四個潛在維,并分析結果實現微博排序,利用微博排序來獲取熱點話題;馬彬等人利用線索樹來標記微博數據特征,并采用雙側聚類方法對微博數據聚類,利用聚類結果獲取微博話題;鄭斐然等人利用在線檢測微博消息中大量出現的關鍵字,通過對關鍵字的聚類來獲取微博熱點話題;薛素芝等人通過尋找微博內在規律,利用相同時間窗口內不同主題詞的增長率來發掘當時的熱點主題詞語,并對熱點主題詞的聚類來產生熱點話題。
傳統的話題檢測模型,在微博話題討論這種噪音環境下處理效果并不理想,其主要原因主要是微博內容有不超過140個字的文本組成,所包含的內容大大少于傳統的文本,同時微博中還包含一些特殊的格式,例如“#主題#”、“@用戶”等等。另外,微博作為網絡社交工具里面含有大量的網絡詞匯,這些往往在傳統文本中沒有出現過,例如“童鞋”、“老鳥”、“妹紙”等等。微博文本與傳統文本在結構上也有很大區別,微博文本較短,因此,使用向量空間模型(Vector Space Model,VSM)建模時務必會出現特征向量稀疏等問題。因此,在進行微博熱點話題檢測時無論是在微博文本預處理方法上,還是在微博特征提取和熱點話題聚類的方法上都與傳統的話題檢測模型有著重大區別。
關于微博話題檢測的相關文獻,我們查到如下:
1、申請號:201110164560.7,發明名稱:微博話題檢測方法及系統,該方法包括步驟:S1,將微博文本切分為詞匯;S2,構造微博文本線索和微博文本森林;S3,針對特定的微博文本線索,進行微博話題分析,以找出微博文本線索中的主話題和噪音話題;S4,針對每個微博文本線索,合并其主話題中的微博文本,從而為每個微博文本線索生成一個微博線索文本;S5,進行全局微博話題分析,從而檢測到全局微博話題,形成微博話題庫。該發明的不足之處在于:該發明需要先構造微博文本線索,形成微博文本森林,需進行大量的微博話題分析,形成微博話題庫,這樣的發明在特定領域內的效果會非常明顯,但在微博爆炸式的移動互聯網中的處理速度相對會較慢,對及時熱點話題的發現效果未必明顯。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于廣西科技大學;廣西科技大學鹿山學院,未經廣西科技大學;廣西科技大學鹿山學院許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710473108.6/2.html,轉載請聲明來源鉆瓜專利網。





