[發明專利]一種面向微博客平臺文本流的突發話題檢測方法及系統無效
| 申請號: | 201310138895.0 | 申請日: | 2013-04-19 |
| 公開(公告)號: | CN103279479A | 公開(公告)日: | 2013-09-04 |
| 發明(設計)人: | 程學旗;李靜遠;房偉偉;王元卓;劉悅 | 申請(專利權)人: | 中國科學院計算技術研究所 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 北京律誠同業知識產權代理有限公司 11006 | 代理人: | 祁建國;梁揮 |
| 地址: | 100190 北*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 面向 博客 平臺 文本 突發 話題 檢測 方法 系統 | ||
技術領域
本發明涉及互聯網信息管理領域,尤其涉及一種面向微博客平臺文本流的突發話題檢測方法。
背景技術
互聯網的快速發展,特別是Web2.0的快速發展,以Facebook、Myspace和Twitter為代表的社交網絡服務成為了網絡用戶不可或缺的交流工具。這些社交網絡服務為用戶提供了包括好友的更新信息、感興趣的人或群組的更新信息、最新熱門時間的相關信息等功能,而這些功能正在逐漸改變著社交網絡服務用戶的信息獲取方式。以國外的Twitter和國內的新浪微博為代表的微博客作為一種新型的社交網絡與Facebook等依托傳統社區產生的虛擬社區形式有很大的區別,這主要表現在關注機制、消息傳播方式和消息實時性上。微博客不同于一般的社交網絡,采用了單向關注的機制,是的任何用戶都可以隨意關注任何自己感興趣的人;微博客的消息傳播為廣播式傳播,用戶發布的消息會被推送到該用戶的所有聽眾;微博客是結合網絡與移動終端等方式的新型網絡服務,它對用戶發送的內容進行了限制,更加強調消息的實時性。
微博客的這些有別于傳統社交網絡的特性使得微博客平臺中實時更新的數據量非常龐大,在這種宏大的信息流中,用戶對于信息獲取有了更為迫切的需求。首先,微博客用戶對話題的關注度非常高,對感興趣的話題,用戶會參與討論并進行擴散(轉發);其次,當用戶發現一個感興趣的話題后,會想更加全面的了解與話題相關的事件。
從海量微博客用戶產生的消息中準確的檢測突發話題對輿情預警、政府決策、廣告精準營銷等商業推廣具有重要意義。一個突發話題可以是一個發生在任何時刻的熱門事件,也可以是在一段時間內由用戶自發和被廣泛響應的網絡行為。事件可以是不可預期的,比如日本地震,也可以是可以預期的,比如美國大選。行為一般是不可預期的,例如“房姐”微博的傳播。一個突發話題常常有一個持續時間短、被大量用戶轉發、討論的時間段。
然而由于微博客不同于一般社交網絡的兩個主要特性:實時性強和發送內容數量的限制(一般為漢字140以內),現有的文本聚類和話題模型在微博客平臺這種用戶生成文本流中的突發話題檢測問題上性能不佳。現有的針對文本流的話題檢測方法主要有以下方法:話題檢測與跟蹤(TDT)項目探索了從新聞文本流中通過文檔聚類進行話題檢測的方法。然而此類方法假設每一個文檔討論一個話題,這在微博客這種帶有聊天性質的在內容數量上有限制的文本中并不適用。話題模型主要使用的有概率話題模型和LDA模型,這類模型用于發現潛在的話題并成功的應用在自動組織、搜索、索引和瀏覽大數據集。與TDT的主要區別是話題模型假設一個文檔可以包含多個話題。然而話題模型存在參數設置不靈活、對實時性強的文本流的噪音、統計信息不足等問題表現不佳,并且其發現的話題不一定是突發話題或事件。
發明內容
本發明的目的是提出一種面向微博客平臺文本流的突發話題檢測方法及系統。使用分類方法對微博客平臺用戶的轉發行為進行分類進而完成流行度評估,并結合長微博信息提取對文本流進行擴展和突發話題檢測。從而能夠快速準確的對文本進行流行度分類和識別、提取長微博文本信息,進而提高了突發話題的檢測性能。
為實現上述發明目的,本發明提供一種面向微博客平臺文本流的突發話題檢測方法,該方法包括:
步驟1,實時采集微博客平臺的用戶數據及用戶生成消息數據,并從所述用戶數據及用戶生成消息數據中提取出消息文本及配圖;
步驟2,設定時間窗口對所述消息文本進行劃分,獲得實時數據流和歷史數據;
步驟3,從所述歷史數據中選取特征,并利用分類方法對所述消息文本進行流行度評估模型和長微博提取模型的訓練;
步驟4,對所述實時數據流利用所述流行度評估模型進行流行度評估,利用所述長微博提取模型進行長微博提取,并將評估為流行的消息放入流行消息集合,提取出的長微博內容放入長微博集合;
步驟5,判斷所述流行消息集合與所述長微博集合數量是否均達到預設的閾值,若達到,使用LDA模型或加權求和的方式進行話題提取對兩個集合的數據提取突發話題,否則返回步驟1。
所述提取的特征包括:
用戶特征:follow數、粉絲數、發帖活躍度;
消息內容特征:內容長度、是否包含URL、是否包含hashtag。
進一步的,提取長微博之前:
要根據微博客消息配圖的長款像素比或關鍵詞詞典中的關鍵字對所述配圖的內容進行過濾。
所述閾值為消息數量或者時間間隔。
進一步的,所述步驟1之前還包括初始化步驟:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中國科學院計算技術研究所,未經中國科學院計算技術研究所許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201310138895.0/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:用電檢查反竊電分析系統
- 下一篇:轉換swf文件為序列圖的方法和裝置





