[發(fā)明專利]一種從微博中挖掘地震主題詞的方法和裝置有效
| 申請?zhí)枺?/td> | 201710074352.5 | 申請日: | 2017-02-10 |
| 公開(公告)號: | CN106874448B | 公開(公告)日: | 2020-03-06 |
| 發(fā)明(設(shè)計)人: | 張曉東;陳欣意;鄒再超;李林;蘇偉;劉峻明;朱德海;孫瑞志 | 申請(專利權(quán))人: | 中國農(nóng)業(yè)大學(xué) |
| 主分類號: | G06F16/9535 | 分類號: | G06F16/9535;G06F16/33 |
| 代理公司: | 北京路浩知識產(chǎn)權(quán)代理有限公司 11002 | 代理人: | 湯財寶 |
| 地址: | 100193 *** | 國省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 微博中 挖掘 地震 主題詞 方法 裝置 | ||
1.一種從微博中挖掘地震主題詞的方法,其特征在于,包括:
S1、對含有地震詞匯的微博文本集中的每個微博文本提取特征詞,基于TF-PDF公式計算每個特征詞在該特征詞所在微博文本中的權(quán)重;
S2、基于微博文本對應(yīng)的活躍度、傳播力以及覆蓋度,獲得每個微博文本的影響力;以及
S3、基于各微博文本的影響力以及微博文本中各特征詞的權(quán)重,獲得各特征詞的流行度,按照各特征詞的流行度大小進(jìn)行降序排列,將排名靠前的特征詞作為地震主題詞;
其中,所述特征詞包括名詞、動詞、量詞、數(shù)詞以及時間詞;
所述步驟S1之前還包括:
采集一定時間范圍內(nèi)含有地震詞匯的微博文本,構(gòu)成微博文本集;以及
將含有特定詞匯、特定話題或特定標(biāo)題的微博文本、具有媒體認(rèn)證的博主發(fā)送的微博文本和單純轉(zhuǎn)發(fā)的微博文本從所述微博文本集中剔除;
其中,所述特定詞匯包括:中國地震臺網(wǎng)、中國地震局、統(tǒng)計以及新華社快訊中的一種或多種;
特定話題包括:最新消息、地震直播以及地震最新動態(tài)中的一種或多種;
特定標(biāo)題包括:地震快訊和快訊中的一種或多種。
2.如權(quán)利要求1所述的方法,其特征在于,所述步驟S1包括:
S1.1、對所述微博文本集中每個微博文本進(jìn)行分詞,并標(biāo)注每個詞匯的詞性,基于不同正則表達(dá)式,對應(yīng)提取每個微博文本中的不同詞性的詞匯組合;
S1.2、從步驟S1.2得到的所有詞匯組合中提取名詞、動詞、量詞、數(shù)詞以及時間詞,作為所述特征詞;以及
S1.3、利用空間向量模型將微博文本表示為向量,所述特征詞對應(yīng)向量中的特征項,基于TF-PDF公式計算每個特征詞在各微博文本中的權(quán)重;
其中,所述詞性至少包括名詞、數(shù)詞、量詞、位置詞、震級、時間詞、日期詞以及動詞。
3.如權(quán)利要求1所述的方法,其特征在于,所述步驟S2包括:
基于微博文本的博主在該時間范圍內(nèi),每天平均發(fā)微博數(shù)和轉(zhuǎn)發(fā)評論數(shù)之和,獲得該微博文本對應(yīng)的活躍度;
基于微博文本被轉(zhuǎn)發(fā)評論和被評論數(shù)之和,獲得該微博文本對應(yīng)的傳播力;
基于微博文本的博主的活躍粉絲數(shù),獲得該微博文本對應(yīng)的覆蓋度;
基于地震發(fā)生的時間,分別設(shè)置對應(yīng)所述活躍度、傳播力以及覆蓋度的3個影響力參數(shù);以及
基于微博文本對應(yīng)的活躍度、傳播力、覆蓋度以及3個影響力參數(shù),獲得每個微博文本的影響力。
4.如權(quán)利要求1所述的方法,其特征在于,所述步驟S3中流行度的計算公式為:
其中,q(j,t)表示特征詞j在時間范圍t內(nèi)的流行度,D表示時間范圍t的微博文本集,p(d)為微博文本d的影響力,wd,j代表微博文本d中特征詞j所具有的TF-PDF權(quán)重。
5.如權(quán)利要求2所述的方法,其特征在于,所述基于不同正則表達(dá)式,對應(yīng)提取每個微博文本中的不同詞性的詞匯組合,包括:
基于第一正則表達(dá)式,提取微博文本中的名詞、數(shù)詞或量詞的組合;
基于第二正則表達(dá)式,提取微博文本中的位置詞、震級或時間詞的組合;
基于第三正則表達(dá)式,提取微博文本中的動詞、名詞或量詞的組合;以及
基于第四正則表達(dá)式,提取微博文本中的日期詞或時間詞的組合。
6.如權(quán)利要求2所述的方法,其特征在于,所述TF-PDF公式為:
wd,i=tfi*exp(dfi/D)
其中,wd,i表示特征詞i在微博文本d中的權(quán)重,tfi表示特征詞i在微博文本d中出現(xiàn)的頻率,dfi則表示微博文本集中包含特征詞i的微博文本數(shù),D為微博文本集中微博文本的總數(shù)。
7.如權(quán)利要求2所述的方法,其特征在于,所述步驟S1.1前還包括:將繁體中文格式的微博文本轉(zhuǎn)換為簡體中文格式。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于中國農(nóng)業(yè)大學(xué),未經(jīng)中國農(nóng)業(yè)大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710074352.5/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 域詞典創(chuàng)建
- 一種設(shè)備故障解決方案知識管理與檢索系統(tǒng)及方法
- 一種基于主題數(shù)據(jù)庫的文獻(xiàn)檢索方法及系統(tǒng)
- 基于MeSH的醫(yī)學(xué)文獻(xiàn)集相似性度量方法
- 一種基于流式LDA主題模型發(fā)現(xiàn)文檔隱含主題和主題詞的方法
- 祝福語文本生成方法和裝置、計算機(jī)可讀存儲介質(zhì)
- 用于推送信息的方法和裝置
- 主題詞提取方法、裝置、存儲介質(zhì)及電子設(shè)備
- 完善主題詞的全文數(shù)據(jù)庫精準(zhǔn)高效檢索方法
- 佛學(xué)主題詞識別方法、裝置、設(shè)備及存儲介質(zhì)





