[發(fā)明專利]基于分布式多級(jí)聚類的話題檢測(cè)裝置及方法無(wú)效
| 申請(qǐng)?zhí)枺?/td> | 201210274779.7 | 申請(qǐng)日: | 2012-08-03 |
| 公開(kāi)(公告)號(hào): | CN102831193A | 公開(kāi)(公告)日: | 2012-12-19 |
| 發(fā)明(設(shè)計(jì))人: | 楊青;李德聰 | 申請(qǐng)(專利權(quán))人: | 人民搜索網(wǎng)絡(luò)股份公司 |
| 主分類號(hào): | G06F17/30 | 分類號(hào): | G06F17/30 |
| 代理公司: | 北京匯澤知識(shí)產(chǎn)權(quán)代理有限公司 11228 | 代理人: | 劉淑敏 |
| 地址: | 100020 北京市朝陽(yáng)*** | 國(guó)省代碼: | 北京;11 |
| 權(quán)利要求書(shū): | 查看更多 | 說(shuō)明書(shū): | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 基于 分布式 多級(jí) 話題 檢測(cè) 裝置 方法 | ||
1.一種基于分布式多級(jí)聚類的話題檢測(cè)裝置,其特征在于,該裝置主要包括:
新聞采集模塊,用于實(shí)時(shí)采集網(wǎng)絡(luò)新聞,并抽取出結(jié)構(gòu)化信息;
新聞分類模塊,用于對(duì)采集的新聞按主題類別進(jìn)行分類,分發(fā)到各個(gè)頻道;
話題檢測(cè)模塊,分為多個(gè)彼此獨(dú)立的模塊,每個(gè)頻道對(duì)應(yīng)一個(gè)模塊,采用并行方式在各頻道內(nèi)進(jìn)行多級(jí)聚類,計(jì)算各話題熱度,并篩選出頻道熱門話題;
話題整合模塊,用于綜合各頻道熱門話題,篩選出全系統(tǒng)的熱門話題。
2.根據(jù)權(quán)利要求1所述的基于分布式多級(jí)聚類的話題檢測(cè)裝置,其特征在于,所述話題檢測(cè)裝置進(jìn)一步包括:
話題展示模塊,用于將各話題及其相關(guān)信息組織成用戶易使用的形式。
3.一種基于分布式多級(jí)聚類的話題檢測(cè)方法,其特征在于,該方法包括:
A、對(duì)新聞進(jìn)行采集的步驟,從各類網(wǎng)站實(shí)時(shí)采集網(wǎng)絡(luò)新聞;
B、對(duì)所述新采集的新聞進(jìn)行分類的步驟,按其主題類別進(jìn)行自動(dòng)化分類,每類對(duì)應(yīng)一個(gè)頻道,并將分類后的新聞分發(fā)到各個(gè)頻道的多級(jí)聚類模塊中;
C、對(duì)各頻道并行地進(jìn)行多級(jí)聚類的步驟;在所述的每個(gè)頻道中,對(duì)新進(jìn)入該頻道的新聞抽取特征,再對(duì)頻道內(nèi)全部數(shù)據(jù)進(jìn)行多級(jí)聚類,將聚類產(chǎn)生的每一個(gè)集合或簇作為一個(gè)話題;
D、計(jì)算所有話題的熱度,篩選出全系統(tǒng)內(nèi)的熱點(diǎn)話題和每個(gè)頻道內(nèi)的熱點(diǎn)話題。
4.根據(jù)權(quán)利要求3所述的基于分布式多級(jí)聚類的話題檢測(cè)方法,其特征在于,步驟A具體包括:
A1、由網(wǎng)絡(luò)爬蟲(chóng)采集目標(biāo)網(wǎng)站列表中的網(wǎng)頁(yè);
A2、對(duì)采集到的原始網(wǎng)頁(yè)做頁(yè)面分析,抽取出標(biāo)題、正文、摘要、作者、來(lái)源、發(fā)表時(shí)間、圖片、視頻信息,并組織成結(jié)構(gòu)化信息。
5.根據(jù)權(quán)利要求3所述的基于分布式多級(jí)聚類的話題檢測(cè)方法,其特征在于,步驟B所述按新聞主題類別進(jìn)行自動(dòng)化分類,包括國(guó)內(nèi)、國(guó)際、社會(huì)、財(cái)經(jīng)、體育、娛樂(lè)、汽車、科技和互聯(lián)網(wǎng)類,并將所述類別作為相應(yīng)的頻道。
6.根據(jù)權(quán)利要求3或5所述的基于分布式多級(jí)聚類的話題檢測(cè)方法,其特征在于,步驟B具體包括:
B1、采用預(yù)先專門訓(xùn)練的樸素貝葉斯分類器,抽取網(wǎng)頁(yè)的標(biāo)題、正文、URL的特征,并結(jié)合若干規(guī)則,判定本周期內(nèi)新采集到的各網(wǎng)頁(yè)是否屬于新聞,如果是,進(jìn)一步判定其屬于哪一個(gè)頻道;
B2、將新采集到的新聞發(fā)送給對(duì)應(yīng)的頻道。
7.根據(jù)權(quán)利要求3所述的基于分布式多級(jí)聚類的話題檢測(cè)方法,其特征在于,步驟C所述對(duì)各頻道并行地進(jìn)行多級(jí)聚類的步驟,具體包括:
C1、去除頻道內(nèi)長(zhǎng)時(shí)間無(wú)變化的話題,以降低后續(xù)聚類處理的數(shù)據(jù)量,避免過(guò)時(shí)話題對(duì)聚類可能造成的干擾;
C2、對(duì)當(dāng)前周期內(nèi)進(jìn)入本頻道的各條新聞抽取特征;
C3、對(duì)步驟C2中生成的一批特征向量進(jìn)行層次聚類,聚類算法采用非加權(quán)組中心UPGMC算法,在該算法中,聚類結(jié)果中的每個(gè)集合或簇都擁有一個(gè)中心向量;相似度的計(jì)算方法為采用兩個(gè)簇的中心向量的余弦相似度;
C4、對(duì)上述步驟C3中產(chǎn)生的每一個(gè)簇,找出與該簇的相似度最大的話題;相似度的計(jì)算方式仍為取余弦相似度;
C5、對(duì)本頻道內(nèi)所有話題再進(jìn)行一次UPGMC層次聚類,聚類結(jié)果的所有簇即為本周期結(jié)束后本頻道內(nèi)的全部話題。
8.根據(jù)權(quán)利要求7所述的基于分布式多級(jí)聚類的話題檢測(cè)方法,其特征在于,步驟C2還包括:
首先對(duì)新聞的標(biāo)題和正文進(jìn)行分詞、詞性標(biāo)注、去停用詞、專名識(shí)別、同義詞歸并,處理的結(jié)果以詞或短語(yǔ)為單位,統(tǒng)稱為token,對(duì)每個(gè)token,計(jì)算其TF.IWF分值作為基礎(chǔ)權(quán)重,并結(jié)合其在文中的位置、詞性、專名類型信息,確定其最終的權(quán)重;然后再將token及其分值構(gòu)造成一個(gè)基于向量空間模型的特征向量,用以描述該新聞。
9.根據(jù)權(quán)利要求7所述的基于分布式多級(jí)聚類的話題檢測(cè)方法,其特征在于,步驟C4還包括:
如果該相似度大于預(yù)定閥值,將該簇合并到該話題中,并修正其中心向量和更新時(shí)間;否則,將該簇被視為一個(gè)新的話題,其誕生時(shí)間和更新時(shí)間均為系統(tǒng)當(dāng)前時(shí)間。
10.根據(jù)權(quán)利要求3所述的基于分布式多級(jí)聚類的話題檢測(cè)方法,其特征在于,步驟D具體包括:
D1、對(duì)每個(gè)頻道內(nèi)的話題,依據(jù)其所含新聞的數(shù)量及其發(fā)表時(shí)間分布、話題的誕生時(shí)間、更新時(shí)間的因素綜合計(jì)算,得出其熱度;
D2、再于頻道內(nèi)對(duì)各話題按熱度排序,從而篩選出各頻道內(nèi)的熱門話題;
D3、最后對(duì)整個(gè)系統(tǒng)內(nèi)的話題按熱度排序,篩選出全系統(tǒng)熱門話題,展示給用戶。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于人民搜索網(wǎng)絡(luò)股份公司,未經(jīng)人民搜索網(wǎng)絡(luò)股份公司許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201210274779.7/1.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專利網(wǎng)。
- 上一篇:一種基于流程網(wǎng)絡(luò)的圖模庫(kù)一體化建模方法
- 下一篇:根據(jù)對(duì)社會(huì)事件的文字描述來(lái)預(yù)測(cè)社會(huì)情感的方法及系統(tǒng)
- 同類專利
- 專利分類
G06F 電數(shù)字?jǐn)?shù)據(jù)處理
G06F17-00 特別適用于特定功能的數(shù)字計(jì)算設(shè)備或數(shù)據(jù)處理設(shè)備或數(shù)據(jù)處理方法
G06F17-10 .復(fù)雜數(shù)學(xué)運(yùn)算的
G06F17-20 .處理自然語(yǔ)言數(shù)據(jù)的
G06F17-30 .信息檢索;及其數(shù)據(jù)庫(kù)結(jié)構(gòu)
G06F17-40 .數(shù)據(jù)的獲取和記錄
G06F17-50 .計(jì)算機(jī)輔助設(shè)計(jì)
- 話題檢測(cè)的方法和裝置
- 一種科研文獻(xiàn)話題發(fā)現(xiàn)和演化跟蹤的方法
- 話題驅(qū)動(dòng)的人工智能回應(yīng)方法及裝置
- 熱點(diǎn)話題早期發(fā)展趨勢(shì)預(yù)測(cè)系統(tǒng)及預(yù)測(cè)方法
- 話題檢測(cè)方法、裝置、設(shè)備及可讀存儲(chǔ)介質(zhì)
- 一種消息組織方法和服務(wù)器
- 話題篩選和發(fā)布的方法、裝置和服務(wù)器
- 話題內(nèi)容的排序方法、裝置、服務(wù)器及存儲(chǔ)介質(zhì)
- 大數(shù)據(jù)話題日志處理方法、服務(wù)器及存儲(chǔ)介質(zhì)
- 一種基于人工智能的熱點(diǎn)話題數(shù)據(jù)處理方法及話題服務(wù)器





