[發明專利]一種提取熱點信息的方法及裝置在審
| 申請號: | 201110403592.8 | 申請日: | 2011-12-07 |
| 公開(公告)號: | CN103150310A | 公開(公告)日: | 2013-06-12 |
| 發明(設計)人: | 李夢凡;胡文翠;潘樹燊 | 申請(專利權)人: | 騰訊科技(深圳)有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 北京派特恩知識產權代理事務所(普通合伙) 11270 | 代理人: | 蔣雅潔;遲姍 |
| 地址: | 518044 廣東省深圳*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 提取 熱點 信息 方法 裝置 | ||
技術領域
本發明涉及互聯網領域的數據處理技術,尤其涉及一種提取熱點信息的方法及裝置。
背景技術
隨著互聯網的蓬勃發展和WEB2.0應用的興起,用戶已經成為互聯網不可或缺的重要組成部分,而用戶在社區中產生的內容已經成為互聯網上最活躍、最受關注和最優價值的資源,尤其是在微博社區中,信息的傳播數據非常快,已經有越來越多的事件第一時間出現在微博上,比傳統互聯網新聞及傳統電視廣播媒體都要快速。同時用戶產生的內容源于真實的世界,很大程度上反映了用戶此刻的真實想法和感悟,具有較高的可信度,因此如何在虛擬社區尤其是信息快速傳播的微博社區中發掘有意義和有價值的熱點信息、以及有可能成為熱點的信息變得尤為重要。
對于虛擬社區的熱點信息挖掘,目前主要通過以下兩種方式實現:第一,詞頻統計的方法,即通過大量運算,統計社區內容中各種熱門詞語出現的頻次、以及概率等,人工分析熱門詞語的頻次和概率,找出社區的熱點信息;第二,關鍵字(keyword)提取和詞頻統計相結合的方法,即根據預制詞庫,提取社區內容中的keywords,通過統計keywords的出現頻次,人工找出社區中的熱點信息,成型的產品如標簽云等。
現有的熱點信息提取方法,主要有如下的缺點:挖掘內容中垃圾信息較多,可能包含大量無意義的高頻詞,且每日熱點信息的變化不大,一般僅能發現社區中已成為熱點的內容,很難真正反映社區當前正在產生的熱點,也無法預知有可能成為熱點的信息;需要大量人力負責后期的整理工作,不僅人力成本耗費大,而且熱點信息的提取效率低。
發明內容
有鑒于此,本發明的主要目的在于提供一種提取熱點信息的方法及裝置,能夠實現熱點信息的自動化提取,提高效率。
為達到上述目的,本發明的技術方案是這樣實現的:
本發明提供了一種提取熱點信息的裝置,所述裝置包括:對外抓取模塊、提取模塊和熱門信息處理模塊;其中,對外抓取模塊,用于從指定的社區網站抓取已運營的熱點信息,并輸出給所述熱門信息處理模塊;提取模塊,用于從當前社區中的用戶產生內容(UGC)中提取包含有預設關鍵字的信息,并輸出給所述熱門信息處理模塊;熱門信息處理模塊,用于對輸入的信息進行分析處理,獲得熱點信息。
在上述方案中,所述熱門信息處理模塊,還用于對輸入的信息進行分析處理,獲得潛在熱點信息。
在上述方案中,所述熱門信息處理模塊,用于對輸入的信息的增量變化率進行分析統計,提取增量變化率高于預設的變化率閾值的信息作為所述潛在熱點信息。
在上述方案中,所述熱門信息處理模塊,用于對輸入的信息的出現頻率進行分析統計,提取出現頻率高于預設的頻率閾值的信息作為所述熱點信息。
在上述方案中,所述裝置還包括:熱門詞庫模塊,用于保存所述預設關鍵字;所述提取模塊,還用于從當前社區的UGC中提取包含有所述熱門詞庫模塊中所述預設關鍵字的信息。
在上述方案中,所述熱門信息處理模塊,還用于將獲得的熱點信息、和/或潛在熱點信息輸出到所述熱門詞庫模塊;所述熱門詞庫模塊,還用于將所述熱門信息處理模塊輸出的熱點信息、和/或潛在熱點信息作為關鍵字進行保存。
本發明還提供了一種提取熱點信息的方法,所述方法包括:從指定的社區網站抓取已運營的熱點信息;從當前社區中的UGC中提取包含有預設關鍵字的信息;對所述已運營的熱點信息和所述包含有預設關鍵字的信息進行分析處理,獲得熱點信息。
在上述方案中,所述方法還包括:對所述已運營的熱點信息和所述包含有預設關鍵字的信息進行分析處理,獲得潛在熱點信息。
在上述方案中,所述對所述已運營的熱點信息和所述包含有預設關鍵字的信息進行分析處理,獲得熱點信息,包括:
對所述已運營的熱點信息和所述包含有預設關鍵字的信息的增量變化率進行分析統計,提取增量變化率高于預設的變化率閾值的信息作為所述潛在熱點信息。
在上述方案中,所述對所述已運營的熱點信息和所述包含有預設關鍵字的信息進行分析處理,獲得熱點信息,包括:對所述已運營的熱點信息和所述包含有預設關鍵字的信息的出現頻率進行分析統計,提取出現頻率高于預設的頻率閾值的信息作為所述熱點信息。
在上述方案中,在對所述已運營的熱點信息和所述包含有預設關鍵字的信息進行分析處理,獲得熱點信息之后,所述方法還包括:將獲得的熱點信息、和/或潛在熱點信息輸出到熱門詞庫模塊,熱門詞庫模塊將所述熱點信息、和/或潛在熱點信息作為預設關鍵字進行保存。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于騰訊科技(深圳)有限公司,未經騰訊科技(深圳)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201110403592.8/2.html,轉載請聲明來源鉆瓜專利網。
- 信息記錄介質、信息記錄方法、信息記錄設備、信息再現方法和信息再現設備
- 信息記錄裝置、信息記錄方法、信息記錄介質、信息復制裝置和信息復制方法
- 信息記錄裝置、信息再現裝置、信息記錄方法、信息再現方法、信息記錄程序、信息再現程序、以及信息記錄介質
- 信息記錄裝置、信息再現裝置、信息記錄方法、信息再現方法、信息記錄程序、信息再現程序、以及信息記錄介質
- 信息記錄設備、信息重放設備、信息記錄方法、信息重放方法、以及信息記錄介質
- 信息存儲介質、信息記錄方法、信息重放方法、信息記錄設備、以及信息重放設備
- 信息存儲介質、信息記錄方法、信息回放方法、信息記錄設備和信息回放設備
- 信息記錄介質、信息記錄方法、信息記錄裝置、信息再現方法和信息再現裝置
- 信息終端,信息終端的信息呈現方法和信息呈現程序
- 信息創建、信息發送方法及信息創建、信息發送裝置





