[發(fā)明專利]一種面向微博客平臺文本流的突發(fā)話題檢測方法及系統(tǒng)無效
| 申請?zhí)枺?/td> | 201310138895.0 | 申請日: | 2013-04-19 |
| 公開(公告)號: | CN103279479A | 公開(公告)日: | 2013-09-04 |
| 發(fā)明(設(shè)計)人: | 程學(xué)旗;李靜遠(yuǎn);房偉偉;王元卓;劉悅 | 申請(專利權(quán))人: | 中國科學(xué)院計算技術(shù)研究所 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 北京律誠同業(yè)知識產(chǎn)權(quán)代理有限公司 11006 | 代理人: | 祁建國;梁揮 |
| 地址: | 100190 北*** | 國省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 面向 博客 平臺 文本 突發(fā) 話題 檢測 方法 系統(tǒng) | ||
1.一種面向微博客平臺文本流的突發(fā)話題檢測方法,其特征在于,包括:
步驟1,實時采集微博客平臺的用戶數(shù)據(jù)及用戶生成消息數(shù)據(jù),并從所述用戶數(shù)據(jù)及用戶生成消息數(shù)據(jù)中提取出消息文本及配圖;
步驟2,設(shè)定時間窗口對所述消息文本進(jìn)行劃分,獲得實時數(shù)據(jù)流和歷史數(shù)據(jù);
步驟3,從所述歷史數(shù)據(jù)中選取特征,并利用分類方法對所述消息文本進(jìn)行流行度評估模型和長微博提取模型的訓(xùn)練;
步驟4,對所述實時數(shù)據(jù)流利用所述流行度評估模型進(jìn)行流行度評估,利用所述長微博提取模型進(jìn)行長微博提取,并將評估為流行的消息放入流行消息集合,提取出的長微博內(nèi)容放入長微博集合;
步驟5,判斷所述流行消息集合與所述長微博集合數(shù)量是否均達(dá)到預(yù)設(shè)的閾值,若達(dá)到,使用LDA模型或加權(quán)求和的方式進(jìn)行話題提取對兩個集合的數(shù)據(jù)提取突發(fā)話題,否則返回步驟1。
2.如權(quán)利要求1所述的突發(fā)話題檢測方法,其特征在于,所述提取的特征包括:
用戶特征:follow數(shù)、粉絲數(shù)、發(fā)帖活躍度;
消息內(nèi)容特征:內(nèi)容長度、是否包含URL、是否包含hashtag。
3.如權(quán)利要求1所述的突發(fā)話題檢測方法,其特征在于,提取長微博之前:
要根據(jù)微博客消息配圖的長款像素比或關(guān)鍵詞詞典中的關(guān)鍵字對所述配圖的內(nèi)容進(jìn)行過濾。
4.如權(quán)利要求1所述的突發(fā)話題檢測方法,其特征在于,所述閾值為消息數(shù)量或者時間間隔。
5.如權(quán)利要求1所述的突發(fā)話題檢測方法,其特征在于,所述步驟1之前還包括初始化步驟:
將所述流行消息集合與所述長微博集合清空,將緩存數(shù)據(jù)進(jìn)行固化。
6.一種面向微博客平臺文本流的突發(fā)話題檢測系統(tǒng),其特征在于,包括:
微博客數(shù)據(jù)采集模塊,實時采集微博客平臺的用戶數(shù)據(jù)及用戶生成消息數(shù)據(jù),并從所述用戶數(shù)據(jù)及用戶生成消息數(shù)據(jù)中提取出消息文本及配圖;
劃分處理模塊,設(shè)定時間窗口對所述消息文本進(jìn)行劃分,獲得實時數(shù)據(jù)流和歷史數(shù)據(jù);
特征提取模塊,從所述歷史數(shù)據(jù)中選取特征,并利用分類方法對所述消息文本進(jìn)行流行度評估模型和長微博提取模型的訓(xùn)練;
集合獲得模塊,對所述實時數(shù)據(jù)流利用所述流行度評估模型進(jìn)行流行度評估,利用所述長微博提取模型進(jìn)行長微博提取,并將評估為流行的消息放入流行消息集合,提取出的長微博內(nèi)容放入長微博集合;
突發(fā)話題發(fā)現(xiàn)模塊,判斷所述流行消息集合與所述長微博集合數(shù)量是否均達(dá)到預(yù)設(shè)的閾值,若達(dá)到,使用LDA模型或加權(quán)求和的方式進(jìn)行話題提取對兩個集合的數(shù)據(jù)提取突發(fā)話題,否則返回微博客數(shù)據(jù)采集模塊。
7.如權(quán)利要求6所述的突發(fā)話題檢測系統(tǒng),其特征在于,所述提取的特征包括:
用戶特征:follow數(shù)、粉絲數(shù)、發(fā)帖活躍度;
消息內(nèi)容特征:內(nèi)容長度、是否包含URL、是否包含hashtag。
8.如權(quán)利要求6所述的突發(fā)話題檢測系統(tǒng),其特征在于,提取長微博之前:
要根據(jù)微博客消息配圖的長款像素比或關(guān)鍵詞詞典中的關(guān)鍵字對所述配圖的內(nèi)容進(jìn)行過濾。
9.如權(quán)利要求6所述的突發(fā)話題檢測系統(tǒng),其特征在于,所述閾值為消息數(shù)量或者時間間隔。
10.如權(quán)利要求6所述的突發(fā)話題檢測系統(tǒng),其特征在于,所述微博客數(shù)據(jù)采集模塊之前還包括初始化模塊:
將所述流行消息集合與所述長微博集合清空,將緩存數(shù)據(jù)進(jìn)行固化。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于中國科學(xué)院計算技術(shù)研究所,未經(jīng)中國科學(xué)院計算技術(shù)研究所許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201310138895.0/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 文本匹配方法及裝置
- 互聯(lián)網(wǎng)金融非顯性廣告識別方法及裝置
- 文本結(jié)論智能推薦方法、裝置及計算機(jī)可讀存儲介質(zhì)
- 文本檢索方法、裝置及設(shè)備、文本檢索模型的訓(xùn)練方法
- 基于級連模式的文本匹配方法及裝置
- 一種文本關(guān)系提取方法、裝置及電子設(shè)備
- 文本的標(biāo)準(zhǔn)化處理方法、裝置、電子設(shè)備及計算機(jī)介質(zhì)
- 文本標(biāo)簽確定方法、裝置、計算機(jī)設(shè)備和存儲介質(zhì)
- 文本圖像合成方法、裝置、設(shè)備及存儲介質(zhì)
- 文本生成方法、裝置和電子設(shè)備





