[發明專利]一種基于微博數據的話題發現與追蹤方法有效
| 申請號: | 201310316316.7 | 申請日: | 2013-07-25 |
| 公開(公告)號: | CN103390051A | 公開(公告)日: | 2013-11-13 |
| 發明(設計)人: | 孫國梓;黃斯琪;楊一濤;陳國蘭;仇呈燕;鄭冬亞 | 申請(專利權)人: | 南京郵電大學 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 南京知識律師事務所 32207 | 代理人: | 汪旭東 |
| 地址: | 210003 江蘇*** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 數據 話題 發現 追蹤 方法 | ||
技術領域
本發明涉及數據挖掘技術領域,特別涉及一種基于微博數據的話題發現與追蹤方法。
背景技術
隨著Web2.0的迅速發展和信息傳播手段的進步,近年來微博成長為發展迅速且影響非常大的網絡全民媒體形式。作為一種新的信息載體和傳播途徑,微博使網民可以更加方便地對各種產品以及服務進行評論,參與各種熱點話題的討論,在網絡輿情信息發起與傳播過程中起著越來越重要的作用。實時大規模增長的微博信息對于用戶來說并不是全部都有價值的,需要自動地從海量微博信息中提取出能讓用戶感興趣的熱點話題,過濾掉無實際價值的冗余數據。
話題是事件相關報道的集合。網絡中信息來源多種多樣,其中包括公眾所關心的熱點話題,當然也可能存在著有關公共安全,社會穩定的敏感話題。事件隨著時間,文化等諸多因素的影響,其發展狀態會產生相應的變化。話題演化反映了某一個話題從他的產生,上升,下降以及結束的一個過程,隨著時間的推移,話題的強度和內容都會發生變化,即存在話題的遷移。輿情分析就是通過對互聯網上的海量文本數據進行分析,掌握主題的演化趨勢,做出及時正確的預測,供決策者參考。
目前,傳統話題演化主要應用在以新聞專線,廣播,電視,博客,論壇社區等媒體為數據來源,通過一系列的數據挖掘方法并進行相似度比對來達到話題檢測的目的。在該問題的研究中,來源信息中的文本是極為重要的信息。微博文本均為字數限制在140個字符以內的短文本,他們隨時產生,數量巨大。由于字數的限制,用戶通常都以更為精簡的方式進行發表。文本形式自由、口語化、縮寫、網絡語言、拼寫錯誤現象極為常見,并常嵌入超文本,如表情,圖片,視頻,網頁鏈接等等。如果使用傳統的通過構造詞匯-文本特征矩陣的方式來分析話題,微博文本自身所獨有的一些性質會造成特征矩陣高度稀疏,可想而知得到的檢測結果也會大打折扣。而本發明能夠很好地解決上面的問題。
發明內容
本發明目的在于設計了一種基于微博數據的話題發現與追蹤方法,該方法是在大規模增量微博信息上進行實時數據分析,通過主題建模,實現話題自動歸類生成,并根據話題內容和話題強度隨時間的變化建立話題在時間軸上的關聯與變化,總結話題演變的動態趨勢。
本發明解決其技術問題所采用的技術方案是:本發明設計了一種基于微博數據的話題發現與追蹤方法,該方法將海量增長的微博數據按照時序屬性進行分塊,并對時間窗口中的文本內容進行挖掘分析,提取出不同時間窗口中的話題,最后通過分析時間窗口間話題的繼承性與同一性總結出微博話題變化趨勢。該方法主要由數據預處理,時間窗口話題生成和時間窗口間話題關聯分析等步驟完成。
方法流程:
步驟1:數據預處理
①忽略指向性對話互動消息。即忽略掉帶有“@用戶名”格式的微博信息,這類微博帖子往往不具有普遍話題的體現行,忽略后能夠盡可能的消除只針對個人之間交互的噪聲數據。
②原微博數據擴充。將微博正文中涉及到的URL中的信息抽取出并添加到微博信息中,支撐用戶的觀點描述。
③微博文本式化:對微博文本進行分詞、去停用詞、去除低頻詞和高頻詞的處理。綜合考慮微博文本中的評論、轉發、用戶自定義標簽(形如“#主題名#”的hashtag)以及內嵌外部鏈接(URL),運用修改后的TF-IDF權重算法。將每個微博帖子形式化,與一個多維詞向量Wi相對應。
④去稀疏性:針對微博較短的數據文本,對其進行基于詞向量的聚類處理。(即首先將微博分詞后表示為單詞向量,基于單詞向量對微博用K均值算法進行聚類處理。假設聚類結果為K類,將每一類里的微博消息合并成單個文檔,則得到了K個合成的微博文檔D。)
步驟2:時間窗口內話題生成
①將經過預處理后的所有數據信息根據其時間信息離散到時間序列上對應的時間窗口t中,每個時間窗口中的集合為St={W1,W2,……WMt},這樣原本連續的文本流分成了若干個時間窗口,其中每個時間窗口中的文檔數目Mt可以相同也可以不同。
②去稀疏性。微博數據多為短句子甚至短語,針對其較為稀疏的數據內容,對其進行基于詞向量的聚類處理。
③針對已經切分為時間片的微博文本,依次處理每個時間窗口內的文本集合,運用LDA模型進行話題模型建模,從中抽取出若干個主題T,并分別獲得話題內容以及話題強度。其中每個窗口內生成的話題數量可以相同也可以不同,話題數量N由模型選擇方法根據每個時間窗口中的微博文本內容動態生成。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于南京郵電大學,未經南京郵電大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201310316316.7/2.html,轉載請聲明來源鉆瓜專利網。
- 數據顯示系統、數據中繼設備、數據中繼方法、數據系統、接收設備和數據讀取方法
- 數據記錄方法、數據記錄裝置、數據記錄媒體、數據重播方法和數據重播裝置
- 數據發送方法、數據發送系統、數據發送裝置以及數據結構
- 數據顯示系統、數據中繼設備、數據中繼方法及數據系統
- 數據嵌入裝置、數據嵌入方法、數據提取裝置及數據提取方法
- 數據管理裝置、數據編輯裝置、數據閱覽裝置、數據管理方法、數據編輯方法以及數據閱覽方法
- 數據發送和數據接收設備、數據發送和數據接收方法
- 數據發送裝置、數據接收裝置、數據收發系統、數據發送方法、數據接收方法和數據收發方法
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置





