日韩在线一区二区三区,日本午夜一区二区三区,国产伦精品一区二区三区四区视频,欧美日韩在线观看视频一区二区三区 ,一区二区视频在线,国产精品18久久久久久首页狼,日本天堂在线观看视频,综合av一区

[發(fā)明專(zhuān)利]一種基于BTM和Single-pass的熱點(diǎn)話題發(fā)現(xiàn)方法有效

專(zhuān)利信息
申請(qǐng)?zhí)枺?/td> 201711210195.2 申請(qǐng)日: 2017-11-28
公開(kāi)(公告)號(hào): CN108197144B 公開(kāi)(公告)日: 2021-02-09
發(fā)明(設(shè)計(jì))人: 許國(guó)艷;夭榮朋;張網(wǎng)娟;平萍;朱帥;李敏佳 申請(qǐng)(專(zhuān)利權(quán))人: 河海大學(xué)
主分類(lèi)號(hào): G06F16/35 分類(lèi)號(hào): G06F16/35
代理公司: 南京蘇高專(zhuān)利商標(biāo)事務(wù)所(普通合伙) 32204 代理人: 柏尚春
地址: 210098 *** 國(guó)省代碼: 江蘇;32
權(quán)利要求書(shū): 查看更多 說(shuō)明書(shū): 查看更多
摘要:
搜索關(guān)鍵詞: 一種 基于 btm single pass 熱點(diǎn)話題 發(fā)現(xiàn) 方法
【說(shuō)明書(shū)】:

發(fā)明提供本發(fā)明提供一種基于BTM和Single?pass的熱點(diǎn)話題發(fā)現(xiàn)方法,該方法首先利用BTM主題模型進(jìn)行主題建模,獲得語(yǔ)料數(shù)據(jù)集的主題分布,然后使用VSM進(jìn)行向量化,再使用改進(jìn)的Single?pass算法對(duì)上面得到的結(jié)果進(jìn)行聚類(lèi),對(duì)聚類(lèi)結(jié)果進(jìn)行整理得到新的聚類(lèi)結(jié)果,其次,對(duì)上述熱點(diǎn)話題發(fā)現(xiàn)方法進(jìn)行并行化計(jì)算,以提高其在大數(shù)據(jù)量情況下的主題挖掘的速度。本發(fā)明可以很好的解決微博數(shù)據(jù)稀疏及處理海量數(shù)據(jù)的能力的問(wèn)題,改進(jìn)后的Single?pass算法可以很好的降低計(jì)算復(fù)雜度,保持算法的穩(wěn)定性,對(duì)新的數(shù)據(jù)能有效的進(jìn)行處理,對(duì)熱點(diǎn)話題的持續(xù)影響力有較好的計(jì)算分析,且數(shù)據(jù)集通過(guò)MapReduce框架提高數(shù)據(jù)處理效率的基礎(chǔ)上,仍然能夠保持話題發(fā)現(xiàn)質(zhì)量。

技術(shù)領(lǐng)域

本發(fā)明涉及一種基于BTM和Single-pass的熱點(diǎn)話題發(fā)現(xiàn)方法,屬于數(shù)據(jù)挖掘領(lǐng)域中的文本聚類(lèi)。

背景技術(shù)

隨著智能手機(jī)及網(wǎng)絡(luò)的普及,人們能時(shí)刻的通過(guò)微博APP關(guān)注最新的一些國(guó)家、社會(huì)發(fā)生的大事,對(duì)微博熱點(diǎn)話題進(jìn)行發(fā)現(xiàn)研究在商業(yè)、科研等領(lǐng)域都有很大的價(jià)值,越來(lái)越多的學(xué)者針對(duì)微博進(jìn)行相關(guān)的研究。

在傳統(tǒng)的熱點(diǎn)話題發(fā)現(xiàn)中,一般都是采用LDA主題模型和K-Means等算法進(jìn)行研究,然而,傳統(tǒng)的LDA模型主要解決的是長(zhǎng)文本的問(wèn)題,對(duì)微博之類(lèi)的短文本數(shù)據(jù)的處理效果不佳,同時(shí),微博數(shù)據(jù)具有的數(shù)據(jù)稀疏、上下文關(guān)聯(lián)性較強(qiáng)等特點(diǎn),是LDA模型很難解決的。

為了處理大量的數(shù)據(jù)集,傳統(tǒng)的熱點(diǎn)話題發(fā)現(xiàn)技術(shù)已經(jīng)遇到了瓶頸。首先,在進(jìn)行熱點(diǎn)話題發(fā)現(xiàn)的過(guò)程中要處理的數(shù)據(jù)量是巨大的,單個(gè)主機(jī)、處理器處理起來(lái)費(fèi)時(shí)費(fèi)力。其次,單純的BTM模型對(duì)數(shù)據(jù)進(jìn)行主題挖掘的速度過(guò)慢,最后其次,在使用BTM主題模型進(jìn)行建模之后,沒(méi)有考慮微博流式數(shù)據(jù)的特性,所以其分類(lèi)效果還有待提高。因此在分布式環(huán)境下對(duì)微博熱點(diǎn)話題發(fā)現(xiàn)顯得尤為重要。

發(fā)明內(nèi)容

發(fā)明目的:本發(fā)明針對(duì)現(xiàn)有技術(shù)的不足,提出一種適用于短文本、數(shù)據(jù)稀疏的流式數(shù)據(jù)的基于BTM和Single-pass的熱點(diǎn)話題發(fā)現(xiàn)方法,同時(shí),該方法能夠適應(yīng)大數(shù)據(jù)量情況和加快主題挖掘速度。

技術(shù)方案:本發(fā)明提供了一種基于BTM和Single-pass的熱點(diǎn)話題發(fā)現(xiàn)方法,該方法包括MapReduce框架的Mapper階段和Reducer階段;

所述Mapper階段具體包括:

(1)對(duì)所述輸入的數(shù)據(jù)集D進(jìn)行預(yù)處理;

(2)將所述預(yù)處理后的數(shù)據(jù)集D平均分到C個(gè)節(jié)點(diǎn),每個(gè)所述節(jié)點(diǎn)包含定量詞對(duì),隨機(jī)為所述詞對(duì)分配一個(gè)主題;

(3)利用BTM主題模型進(jìn)行主題建模,獲得語(yǔ)料數(shù)據(jù)集的主題分布;

(4)在每個(gè)節(jié)點(diǎn)上采用VSM對(duì)結(jié)果進(jìn)行向量化;

(5)在每個(gè)節(jié)點(diǎn)上采用改進(jìn)的Single-pass算法進(jìn)行聚類(lèi)分析,得到局部話題;

(6)輸出所述局部話題;

所述Reducer階段具體包括:

(1)輸入所述每個(gè)節(jié)點(diǎn)上的初始化聚類(lèi)結(jié)果;

(2)選取主節(jié)點(diǎn)的所述聚類(lèi)結(jié)果作為初始的聚類(lèi)中心;

(3)采用改進(jìn)Single-pass算法將其余節(jié)點(diǎn)的聚類(lèi)結(jié)果與所述主節(jié)點(diǎn)的聚類(lèi)結(jié)果進(jìn)行聚類(lèi)操作,最終得出熱點(diǎn)話題;

(4)輸出所述熱點(diǎn)話題。

優(yōu)選的,步驟(5)中,所述聚類(lèi)分析具體包括:

(51)將所述節(jié)點(diǎn)C按一定規(guī)模分成n個(gè)數(shù)據(jù)片C1,C2,...,Cn,將所述數(shù)據(jù)片按順序依次作為輸入數(shù)據(jù);每個(gè)所述數(shù)據(jù)片單獨(dú)進(jìn)行內(nèi)部聚類(lèi),得到每個(gè)所述數(shù)據(jù)片的聚類(lèi)結(jié)果;

下載完整專(zhuān)利技術(shù)內(nèi)容需要扣除積分,VIP會(huì)員可以免費(fèi)下載。

該專(zhuān)利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專(zhuān)利權(quán)人授權(quán)。該專(zhuān)利全部權(quán)利屬于河海大學(xué),未經(jīng)河海大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買(mǎi)此專(zhuān)利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服

本文鏈接:http://www.szxzyx.cn/pat/books/201711210195.2/2.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專(zhuān)利網(wǎng)。

×

專(zhuān)利文獻(xiàn)下載

說(shuō)明:

1、專(zhuān)利原文基于中國(guó)國(guó)家知識(shí)產(chǎn)權(quán)局專(zhuān)利說(shuō)明書(shū);

2、支持發(fā)明專(zhuān)利 、實(shí)用新型專(zhuān)利、外觀設(shè)計(jì)專(zhuān)利(升級(jí)中);

3、專(zhuān)利數(shù)據(jù)每周兩次同步更新,支持Adobe PDF格式;

4、內(nèi)容包括專(zhuān)利技術(shù)的結(jié)構(gòu)示意圖、流程工藝圖技術(shù)構(gòu)造圖;

5、已全新升級(jí)為極速版,下載速度顯著提升!歡迎使用!

請(qǐng)您登陸后,進(jìn)行下載,點(diǎn)擊【登陸】 【注冊(cè)】

關(guān)于我們 尋求報(bào)道 投稿須知 廣告合作 版權(quán)聲明 網(wǎng)站地圖 友情鏈接 企業(yè)標(biāo)識(shí) 聯(lián)系我們

鉆瓜專(zhuān)利網(wǎng)在線咨詢

周一至周五 9:00-18:00

咨詢?cè)诰€客服咨詢?cè)诰€客服
tel code back_top
主站蜘蛛池模板: 99国精视频一区一区一三| 狠狠色噜噜狠狠狠狠69| 亚洲欧洲精品一区二区三区不卡| 狠狠色丁香久久综合频道| 91麻豆国产自产在线观看hd| 国产精品白浆一区二区| 久久99精品国产麻豆婷婷| 国产农村妇女精品一二区| 精品99在线视频| 日本一码二码三码视频| 国产日韩欧美91| 国产1区在线观看| 99精品国产99久久久久久97| 黄毛片在线观看| 久久精品男人的天堂| 欧美在线免费观看一区| 久久99中文字幕| 国产一级自拍片| 久久噜噜少妇网站| 亚洲国产精品第一区二区| 99国产精品欧美久久久久的广告| 91福利视频导航| 99久久精品一区二区| www.日本一区| 99视频一区| 一区二区三区国产精品视频| 国产清纯白嫩初高生在线播放性色| 真实的国产乱xxxx在线91| 久久夜靖品2区| 久久激情影院| 一区二区在线精品| 亚洲欧美另类久久久精品2019| 夜夜躁日日躁狠狠躁| 国产乱人伦偷精品视频免下载| 欧美在线一区二区视频| 高清国产一区二区三区| 日韩一区高清| 中文字幕在线视频一区二区| 欧美在线免费观看一区| 国产一区日韩一区| 香蕉视频一区二区三区| 欧美日韩国产在线一区| 国产一区二区视频免费在线观看| 国产一区二区精品在线| 欧美日韩卡一卡二| 午夜在线观看av| 96国产精品| 免费毛片a| 国产日韩精品久久| 四虎国产精品永久在线国在线| 日韩国产精品一区二区| 国产一区免费播放| 中文字幕制服丝袜一区二区三区| 综合国产一区| 欧美日韩中文不卡| 在线电影一区二区| 九一国产精品| 久久国产精品首页| 欧美一区二区三区不卡视频| 国产极品一区二区三区| 日韩一级精品视频在线观看 | 国产日韩精品久久| 国产高清在线一区| 羞羞免费视频网站| 久久久久亚洲| 欧美日韩三区二区| 狠狠色丁香久久婷婷综| 国产精品综合在线| 国产精品视频免费看人鲁| 国产精品免费观看国产网曝瓜| 精品国产九九九| 国产高潮国产高潮久久久91| 亚洲一区欧美| 中出乱码av亚洲精品久久天堂| 国产精品久久久久久久久久久久久久久久久久 | 蜜臀久久99精品久久久| 亚洲欧美另类久久久精品2019| 亚洲一区欧美| 九色国产精品入口| 国产日产精品一区二区三区| 欧美精品日韩精品| 久久亚洲精品国产日韩高潮|