[發明專利]基于分布式多級聚類的話題檢測裝置及方法無效
| 申請號: | 201210274779.7 | 申請日: | 2012-08-03 |
| 公開(公告)號: | CN102831193A | 公開(公告)日: | 2012-12-19 |
| 發明(設計)人: | 楊青;李德聰 | 申請(專利權)人: | 人民搜索網絡股份公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 北京匯澤知識產權代理有限公司 11228 | 代理人: | 劉淑敏 |
| 地址: | 100020 北京市朝陽*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 分布式 多級 話題 檢測 裝置 方法 | ||
技術領域
本發明涉及文本信息處理中的網絡信息分析、文本分類和文本聚類技術,尤其涉及一種基于分布式多級聚類的話題檢測裝置及方法。?
背景技術
隨著互聯網的高速發展,網絡上的信息越來越多元和豐富,與此同時,網絡輿情的社會影響力不斷增強,很多社會熱點事件都是在網絡中第一時間披露和傳播,網絡話題檢測因而愈發顯現出其重要價值。在互聯網環境中,存在大量自然語言形式的文檔,其類型包括新聞、博客、論壇帖子,以及新興的微博等,這些文檔為發現熱點話題提供了最基本的數據來源。?
美國國防部開展的話題檢測與跟蹤項目(TDT,Topic?Detection?and?Tracking)最早展開了該領域的系統性研究。多種TDT技術在該領域已經做出了有益探索。現有話題檢測技術大多串行地處理每個新產生文檔,基于向量空間模型或其他模型,采用單路徑聚類、凝聚層次聚類等聚類算法,考察其與現有話題集合中各話題的相關程度,并決定將其合并入現有話題或將其視為一個新話題。?
然而,由于這些方法采用串行方式處理每一個文檔,一旦面臨較大的數據量,如果不在聚類算法的選擇上采用復雜度較低但效果較差的算法,便難以保證具有實用意義的處理速度。并且,由于沒有采取預先有效降低噪聲的措施,其檢測效果也有待改善。總之,由于網絡環境中新的文檔每時每刻都在大量產生,如何對它們進行即有效又快速的分析,檢測出熱點話題,對現有技術構成了很大挑戰。?
發明內容
有鑒于此,本發明的主要目的在于提供一種基于分布式多級聚類的話題檢測裝置及方法,以解決在互聯網環境中大量文檔快速更新的條件下,話題檢測面臨的檢測效果與時間開銷的尖銳矛盾。?
為達到上述目的,本發明的技術方案是這樣實現的:?
一種基于分布式多級聚類的話題檢測裝置,該裝置主要包括:
新聞采集模塊,用于實時采集網絡新聞,并抽取出結構化信息;
新聞分類模塊,用于對采集的新聞按主題類別進行分類,分發到各個頻道;
話題檢測模塊,分為多個彼此獨立的模塊,每個頻道對應一個模塊,采用并行方式在各頻道內進行多級聚類,計算各話題熱度,并篩選出頻道熱門話題;
話題整合模塊,用于綜合各頻道熱門話題,篩選出全系統的熱門話題。
其中,所述話題檢測裝置進一步包括:?
話題展示模塊,用于將各話題及其相關信息組織成用戶易使用的形式。
一種基于分布式多級聚類的話題檢測方法,該方法包括:?
A、對新聞進行采集的步驟,從各類網站實時采集網絡新聞;
B、對所述新采集的新聞進行分類的步驟,按其主題類別進行自動化分類,每類對應一個頻道,并將分類后的新聞分發到各個頻道的多級聚類模塊中;
C、對各頻道并行地進行多級聚類的步驟;在所述的每個頻道中,對新進入該頻道的新聞抽取特征,再對頻道內全部數據進行多級聚類,將聚類產生的每一個集合或簇作為一個話題;
D、計算所有話題的熱度,篩選出全系統內的熱點話題和每個頻道內的熱點話題。
其中,步驟A具體包括:?
A1、由網絡爬蟲采集目標網站列表中的網頁;
A2、對采集到的原始網頁做頁面分析,抽取出標題、正文、摘要、作者、來源、發表時間、圖片、視頻信息,并組織成結構化信息。
步驟B所述按新聞主題類別進行自動化分類,包括國內、國際、社會、財經、體育、娛樂、汽車、科技和互聯網類,并將所述類別作為相應的頻道。?
步驟B具體包括:?
B1、采用預先專門訓練的樸素貝葉斯分類器,抽取網頁的標題、正文、URL的特征,并結合若干規則,判定本周期內新采集到的各網頁是否屬于新聞,如果是,進一步判定其屬于哪一個頻道;
B2、將新采集到的新聞發送給對應的頻道。
7、根據權利要求3所述的基于分布式多級聚類的話題檢測方法,其特征在于,步驟C所述對各頻道并行地進行多級聚類的步驟,具體包括:?
C1、去除頻道內長時間無變化的話題,以降低后續聚類處理的數據量,避免過時話題對聚類可能造成的干擾;
C2、對當前周期內進入本頻道的各條新聞抽取特征;
C3、對步驟C2中生成的一批特征向量進行層次聚類,聚類算法采用非加權組中心UPGMC算法,在該算法中,聚類結果中的每個集合或簇都擁有一個中心向量;相似度的計算方法為采用兩個簇的中心向量的余弦相似度;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于人民搜索網絡股份公司,未經人民搜索網絡股份公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201210274779.7/2.html,轉載請聲明來源鉆瓜專利網。





