[發明專利]一種面向微博客的話題流行范圍評估方法及系統有效
| 申請號: | 201310143846.6 | 申請日: | 2013-04-23 |
| 公開(公告)號: | CN103279483A | 公開(公告)日: | 2013-09-04 |
| 發明(設計)人: | 程學旗;李靜遠;李佳;王元卓;劉悅 | 申請(專利權)人: | 中國科學院計算技術研究所 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 北京律誠同業知識產權代理有限公司 11006 | 代理人: | 祁建國;梁揮 |
| 地址: | 100190 北*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 面向 博客 話題 流行 范圍 評估 方法 系統 | ||
技術領域
本發明涉及互聯網信息管理領域,尤其涉及一種面向微博客的話題流行范圍評估方法及系統。
背景技術
互聯網的快速發展,特別是Web2.0的快速發展,以Facebook、Myspace和Twitter為代表的社交網絡服務成為了網絡用戶不可或缺的交流工具。這些社交網絡服務為用戶提供了包括好友的更新信息、感興趣的人或群組的更新信息、最新熱門時間的相關信息等功能,而這些功能正在逐漸改變著社交網絡服務用戶的信息獲取方式。以國外的Twitter和國內的新浪微博為代表的微博客作為一種新型的社交網絡與Facebook等依托傳統社區產生的虛擬社區形式有很大的區別,這主要表現在關注機制、消息傳播方式和消息實時性上。微博客不同于一般的社交網絡,采用了單向關注的機制,使得任何用戶都可以隨意關注任何自己感興趣的人;微博客的消息傳播為廣播式傳播,用戶發布的消息會被推送到該用戶的所有聽眾;微博客是結合網絡與移動終端等方式的新型網絡服務,它對用戶發送的內容進行了限制,更加強調消息的實時性。微博用戶往往通過短小精悍的文本(一般不超過140個字)描述新聞、事件及表達自己的觀點
微博客的這些有別于傳統社交網絡的特性使得微博客平臺中實時更新的數據量非常龐大,在這種宏大的信息流中,用戶對于信息獲取有了更為迫切的需求。首先,由于微博客是短文本,話題發現不同于傳統的博客等,如何有效的發現話題并且總結話題,將相應的微博客歸類到有意義的話題上是具有挑戰性的問題,話題之間的內在聯系被忽視;其次,社交網絡上面的用戶是由隱含的社區所組成,目前社區發現尚沒有對應的直接應用。另外,目前尚沒有對于社區和話題之間關系的相關研究。這些不足之處也是具有研究價值的問題所在。
第一,微博客是一種話題驅動機制,話題的生命期包括出現、發展衍化和消退這幾個階段,由于微博客的實時性,用戶希望在話題出現的階段實時獲取相關信息,從而能夠更早的參與到自己感興趣的話題的討論中去。如何在微博客平臺實現話題發現,尚未有明確的方案;微博客平臺對用戶發送的內容數量上做了限制,這是為了保證消息的實時性,但這在某種程度上也導致了用戶無法在一條消息內做到完整的表述。這種信息不足也增加了突發話題發現的難度;
第二,微博客平臺上發現話題之后,多個話題之間的關系的發現時一個被忽略的研究問題。如何發現話題之間關系,表達話題之間關系,以及利用話題之間的關系進行對未來話題流行度的評估都是具有挑戰的問題。
第三,微博客平臺上進行有意義社區的發現。目前對于社區的定義仍然具有爭議,一種觀點認為連接緊密的用戶是一個社區,另一種觀點認為具有相同興趣和話題的用戶是一個社區。社區和話題之間的關系,如何表示兩者之間的關系,兩者之間的關系是否有意義,如何利用這種關系評估話題的可能的流行范圍等尚缺乏相關的研究。
發明內容
本發明的目的是融合話題和社區關系的消息流行范圍評估,利用話題和社區,社區和社區之間,話題和話題之間的關系,可以實時有效的對新話題的可能的流行范圍進行評估。
為實現上述目的,本發明提供一種面向微博客的話題流行范圍評估方法,該方法包括:
步驟1,采集微博客平臺的歷史數據,根據所述歷史數據提取多個話題,以及所述多個話題所對應的多個消息,并根據對所述多個消息進行合并操作獲得多個合并消息,然后將發布或者轉發同一個合并消息的用戶構建一個社區,獲得多個社區,基于所述多個社區的重合程度,進行話題的歸類,提取同一類別中話題的特征;
步驟2,獲取微博客平臺的實時數據,根據所述實時數據提取新話題,以及所述新話題所對應的多個新消息,并根據對所述多個新消息進行合并操作獲得多個新合并消息,將發布或者轉發同一個新合并消息的用戶構建一個新社區,獲得多個新社區,基于所述多個新社區的重合程度,進行新話題的歸類,提取同一類別中新話題的新特征;
步驟3,將所述特征與所述新特征進行匹配,獲得目標話題,對所述目標話題的流行范圍進行評估;
其中L1和L2分別為任意兩條消息的長度,Lcom為任意兩條消息的共同的詞的數目,threshold介于[0.3,0.4]區間內。
所述步驟1和步驟2中進行合并操作后進行以下處理:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中國科學院計算技術研究所,未經中國科學院計算技術研究所許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201310143846.6/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:汽車駕駛訓練器模擬變速箱
- 下一篇:節能減排信息的認證統計系統





