[發(fā)明專利]熱點(diǎn)事件檢測方法和裝置有效
| 申請(qǐng)?zhí)枺?/td> | 201510062401.4 | 申請(qǐng)日: | 2015-02-05 |
| 公開(公告)號(hào): | CN104598632B | 公開(公告)日: | 2017-12-01 |
| 發(fā)明(設(shè)計(jì))人: | 胡春明;孫承根;吳博;于偉仁;沃天宇 | 申請(qǐng)(專利權(quán))人: | 北京航空航天大學(xué) |
| 主分類號(hào): | G06F17/30 | 分類號(hào): | G06F17/30 |
| 代理公司: | 北京同立鈞成知識(shí)產(chǎn)權(quán)代理有限公司11205 | 代理人: | 馬爽,黃健 |
| 地址: | 100191*** | 國省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 熱點(diǎn) 事件 檢測 方法 裝置 | ||
技術(shù)領(lǐng)域
本發(fā)明涉及計(jì)算機(jī)技術(shù)領(lǐng)域,尤其涉及一種熱點(diǎn)事件檢測方法和裝置。
背景技術(shù)
微博從誕生到如今,以驚人的速度發(fā)展著,國內(nèi)最大的兩大微博平臺(tái)新浪和騰訊的注冊(cè)人數(shù)早已超過5億。尤其是在突發(fā)和熱點(diǎn)事件中,微博的影響規(guī)模和傳播速度超越了普通博客和傳統(tǒng)的新聞媒體。目前,從海量微博數(shù)據(jù)中檢測熱點(diǎn)事件的方法主要為:獲取海量微博數(shù)據(jù),采用Canopy聚類算法或k-means聚類算法對(duì)海量微博數(shù)據(jù)進(jìn)行聚類,獲取熱點(diǎn)事件。
然而現(xiàn)有技術(shù)中,海量微博數(shù)據(jù)中的微博條數(shù)過多,且海量微博數(shù)據(jù)中由極大部分微博與熱點(diǎn)事件毫無關(guān)系,對(duì)其進(jìn)行聚類,延長了獲取熱點(diǎn)事件的時(shí)間,降低了聚類獲取熱點(diǎn)事件的效率。
發(fā)明內(nèi)容
本發(fā)明提供一種熱點(diǎn)事件檢測方法和裝置,用于解決現(xiàn)有技術(shù)中獲取熱點(diǎn)事件的時(shí)間長,效率低的問題。
本發(fā)明的第一個(gè)方面是提供一種熱點(diǎn)事件檢測方法,包括:
獲取社交網(wǎng)絡(luò)中當(dāng)前時(shí)間段內(nèi)的微博數(shù)據(jù);
對(duì)所述微博數(shù)據(jù)中的多條微博的內(nèi)容進(jìn)行分詞,統(tǒng)計(jì)分詞得到的各個(gè)詞在所述微博數(shù)據(jù)中的出現(xiàn)次數(shù);
獲取社交網(wǎng)絡(luò)中歷史時(shí)間段內(nèi)所述各個(gè)詞在歷史微博數(shù)據(jù)中的出現(xiàn)次數(shù);所述歷史時(shí)間段和所述當(dāng)前時(shí)間段的時(shí)間長度相等;
對(duì)所述各個(gè)詞在所述微博數(shù)據(jù)中的出現(xiàn)次數(shù)和在歷史微博數(shù)據(jù)中的出現(xiàn)次數(shù)進(jìn)行比較,確定所述微博數(shù)據(jù)中的熱詞;
獲取所述微博數(shù)據(jù)中包括所述熱詞的微博;
對(duì)包括所述熱詞的微博進(jìn)行聚類,確定所述微博數(shù)據(jù)中的熱點(diǎn)事件。
進(jìn)一步地,所述對(duì)所述各個(gè)詞在所述微博數(shù)據(jù)中的出現(xiàn)次數(shù)和在歷史微博數(shù)據(jù)中的出現(xiàn)次數(shù)進(jìn)行比較,確定所述微博數(shù)據(jù)中的熱詞,包括:
計(jì)算所述各個(gè)詞在所述微博數(shù)據(jù)中的出現(xiàn)次數(shù)與在歷史微博數(shù)據(jù)中的出現(xiàn)次數(shù)的比值;
將所述比值大于第一閾值的相應(yīng)詞確定為所述微博數(shù)據(jù)中的熱詞。
進(jìn)一步地,所述對(duì)所述各個(gè)詞在所述微博數(shù)據(jù)中的出現(xiàn)次數(shù)和在歷史微博數(shù)據(jù)中的出現(xiàn)次數(shù)進(jìn)行比較,確定所述微博數(shù)據(jù)中的熱詞,還包括:
計(jì)算所述各個(gè)詞在所述微博數(shù)據(jù)中的出現(xiàn)次數(shù)與在歷史微博數(shù)據(jù)中的出現(xiàn)次數(shù)的差值;
所述將所述比值大于第一閾值相應(yīng)詞確定為所述微博數(shù)據(jù)中的熱詞,包括:
將所述比值大于第一閾值,且所述差值大于第二閾值的相應(yīng)詞確定為所述微博數(shù)據(jù)中的熱詞。
進(jìn)一步地,所述對(duì)包括所述熱詞的微博進(jìn)行聚類,確定所述微博數(shù)據(jù)中的熱點(diǎn)事件,包括:
對(duì)包括所述熱詞的微博進(jìn)行canopy聚類,確定初始類的數(shù)目和中心點(diǎn);
根據(jù)所述初始類的數(shù)目和中心點(diǎn)對(duì)包括所述熱詞的微博進(jìn)行k-means聚類,確定所述微博數(shù)據(jù)中的熱點(diǎn)事件。
進(jìn)一步地,所述對(duì)包括所述熱詞的微博進(jìn)行canopy聚類,確定初始類的數(shù)目和中心點(diǎn)之前,還包括:
查詢預(yù)設(shè)的詞表,確定所述熱詞在所述詞表中的序號(hào);
根據(jù)所述熱詞在所述詞表中的序號(hào)和所述熱詞在所述微博數(shù)據(jù)中的出現(xiàn)次數(shù),確定包括所述熱詞的微博對(duì)應(yīng)的微博向量;
所述對(duì)包括所述熱詞的微博進(jìn)行canopy聚類,確定初始類的數(shù)目和中心點(diǎn),包括:
對(duì)所述微博向量進(jìn)行canopy聚類,確定初始類的數(shù)目和中心點(diǎn)。
本發(fā)明的另一個(gè)方面提供一種熱點(diǎn)事件檢測裝置,包括:
獲取模塊,用于獲取社交網(wǎng)絡(luò)中當(dāng)前時(shí)間段內(nèi)的微博數(shù)據(jù);
分詞模塊,用于對(duì)所述微博數(shù)據(jù)中的多條微博的內(nèi)容進(jìn)行分詞,統(tǒng)計(jì)分詞得到的各個(gè)詞在所述微博數(shù)據(jù)中的出現(xiàn)次數(shù);
所述獲取模塊,還用于獲取社交網(wǎng)絡(luò)中歷史時(shí)間段內(nèi)所述各個(gè)詞在歷史微博數(shù)據(jù)中的出現(xiàn)次數(shù);所述歷史時(shí)間段和所述當(dāng)前時(shí)間段的時(shí)間長度相等;
確定模塊,用于對(duì)所述各個(gè)詞在所述微博數(shù)據(jù)中的出現(xiàn)次數(shù)和在歷史微博數(shù)據(jù)中的出現(xiàn)次數(shù)進(jìn)行比較,確定所述微博數(shù)據(jù)中的熱詞;
所述獲取模塊,還用于獲取所述微博數(shù)據(jù)中包括所述熱詞的微博;
聚類模塊,用于對(duì)包括所述熱詞的微博進(jìn)行聚類,確定所述微博數(shù)據(jù)中的熱點(diǎn)事件。
進(jìn)一步地,所述確定模塊具體用于,
計(jì)算所述各個(gè)詞在所述微博數(shù)據(jù)中的出現(xiàn)次數(shù)與在歷史微博數(shù)據(jù)中的出現(xiàn)次數(shù)的比值;
將所述比值大于第一閾值的相應(yīng)詞確定為所述微博數(shù)據(jù)中的熱詞。
進(jìn)一步地,所述確定模塊具體還用于,計(jì)算所述各個(gè)詞在所述微博數(shù)據(jù)中的出現(xiàn)次數(shù)與在歷史微博數(shù)據(jù)中的出現(xiàn)次數(shù)的差值;
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于北京航空航天大學(xué),未經(jīng)北京航空航天大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201510062401.4/2.html,轉(zhuǎn)載請(qǐng)聲明來源鉆瓜專利網(wǎng)。
- 同類專利
- 專利分類
G06F 電數(shù)字?jǐn)?shù)據(jù)處理
G06F17-00 特別適用于特定功能的數(shù)字計(jì)算設(shè)備或數(shù)據(jù)處理設(shè)備或數(shù)據(jù)處理方法
G06F17-10 .復(fù)雜數(shù)學(xué)運(yùn)算的
G06F17-20 .處理自然語言數(shù)據(jù)的
G06F17-30 .信息檢索;及其數(shù)據(jù)庫結(jié)構(gòu)
G06F17-40 .數(shù)據(jù)的獲取和記錄
G06F17-50 .計(jì)算機(jī)輔助設(shè)計(jì)
- 使用多機(jī)器學(xué)習(xí)核的光刻熱點(diǎn)檢測
- 一種釣魚熱點(diǎn)的檢測方法及系統(tǒng)
- 一種基于大數(shù)據(jù)識(shí)別釣魚熱點(diǎn)的方法和設(shè)備
- 一種快速分享熱點(diǎn)的方法及設(shè)備
- 一種信息獲取的方法、設(shè)備以及介質(zhì)
- 一種熱點(diǎn)切換的方法及設(shè)備
- 熱點(diǎn)開啟方法、裝置、終端設(shè)備及存儲(chǔ)介質(zhì)
- 熱點(diǎn)區(qū)域定位方法、裝置、計(jì)算機(jī)設(shè)備及存儲(chǔ)介質(zhì)
- 一種城市交通出行問題熱點(diǎn)分級(jí)方法及裝置
- 一種基于無線熱點(diǎn)實(shí)現(xiàn)定位的方法與設(shè)備
- 一種事件通訊裝置及方法
- 動(dòng)態(tài)權(quán)重事件處理系統(tǒng)和方法
- 攻擊檢測裝置和攻擊檢測方法
- 基于Unity的事件管理方法及系統(tǒng)
- 事件解析裝置、事件解析系統(tǒng)、事件解析方法及事件解析程序
- 事件解析裝置、事件解析系統(tǒng)、事件解析方法及事件解析程序
- 事件解析裝置、事件解析系統(tǒng)、事件解析方法及事件解析程序
- 熱點(diǎn)事件確定方法及裝置、計(jì)算機(jī)設(shè)備及存儲(chǔ)介質(zhì)
- 一種樹狀模型中節(jié)點(diǎn)的連接方法及其模型、計(jì)算機(jī)裝置和可讀存儲(chǔ)介質(zhì)
- 一種事件處理方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)
- 一種數(shù)據(jù)庫讀寫分離的方法和裝置
- 一種手機(jī)動(dòng)漫人物及背景創(chuàng)作方法
- 一種通訊綜合測試終端的測試方法
- 一種服裝用人體測量基準(zhǔn)點(diǎn)的獲取方法
- 系統(tǒng)升級(jí)方法及裝置
- 用于虛擬和接口方法調(diào)用的裝置和方法
- 線程狀態(tài)監(jiān)控方法、裝置、計(jì)算機(jī)設(shè)備和存儲(chǔ)介質(zhì)
- 一種JAVA智能卡及其虛擬機(jī)組件優(yōu)化方法
- 檢測程序中方法耗時(shí)的方法、裝置及存儲(chǔ)介質(zhì)
- 函數(shù)的執(zhí)行方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)





