[發(fā)明專(zhuān)利]一種基于主題挖掘和情感分析的微博輿情可視分析方法在審
| 申請(qǐng)?zhí)枺?/td> | 202210201566.5 | 申請(qǐng)日: | 2022-03-03 |
| 公開(kāi)(公告)號(hào): | CN114579833A | 公開(kāi)(公告)日: | 2022-06-03 |
| 發(fā)明(設(shè)計(jì))人: | 秦紅星;黃辰軍 | 申請(qǐng)(專(zhuān)利權(quán))人: | 重慶郵電大學(xué) |
| 主分類(lèi)號(hào): | G06F16/951 | 分類(lèi)號(hào): | G06F16/951;G06F16/9538;G06F16/35 |
| 代理公司: | 北京同恒源知識(shí)產(chǎn)權(quán)代理有限公司 11275 | 代理人: | 廖曦 |
| 地址: | 400065 *** | 國(guó)省代碼: | 重慶;50 |
| 權(quán)利要求書(shū): | 查看更多 | 說(shuō)明書(shū): | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 主題 挖掘 情感 分析 輿情 可視 方法 | ||
1.一種基于主題挖掘和情感分析的微博輿情可視分析方法,其特征在于:該方法包括以下步驟:
S1:研究數(shù)據(jù)的獲取以及處理,具體分為確定需要爬取的微博賬號(hào),獲取所研究微博賬號(hào)在輿情期間的微博數(shù)據(jù),提取所需研究字段,對(duì)獲取的研究語(yǔ)料進(jìn)行預(yù)處理;
S2:采用貝葉斯模型對(duì)微博數(shù)據(jù)進(jìn)行主題分類(lèi),接著使用TF-IDF特征提取和LDA主題模型對(duì)分類(lèi)好的語(yǔ)料進(jìn)行文本主題挖掘;
S3:提取各時(shí)間段熱點(diǎn)話(huà)題的微博評(píng)論,然后使用基于擴(kuò)展詞典的方法進(jìn)行初步情感分類(lèi);接著使用FastText分類(lèi)器進(jìn)行二次情感分類(lèi),得到最終的分類(lèi)結(jié)果;
S4:對(duì)前面得到的微博熱點(diǎn)話(huà)題和情感趨勢(shì)采用對(duì)比可視化的方法,從時(shí)間、空間、熱度和用戶(hù)屬性多個(gè)層面上對(duì)兩次輿情期間微博輿情進(jìn)行可視分析。
2.根據(jù)權(quán)利要求1所述的一種基于主題挖掘和情感分析的微博輿情可視分析方法,其特征在于:所述S1中,確定需要爬取的微博賬號(hào)是根據(jù)微博媒體的發(fā)文情況,選擇包括人民網(wǎng)和人民日?qǐng)?bào)有權(quán)威的賬號(hào)。
3.根據(jù)權(quán)利要求1所述的一種基于主題挖掘和情感分析的微博輿情可視分析方法,其特征在于:所述S1中,對(duì)爬取的微博原始數(shù)據(jù)進(jìn)行預(yù)處理,包括:去除停用詞,去除標(biāo)點(diǎn),去除副詞;
使用正則匹配,保留的數(shù)據(jù)包括微博的內(nèi)容、作者、時(shí)間、點(diǎn)贊數(shù)、轉(zhuǎn)發(fā)數(shù)、話(huà)題詞和評(píng)論;
語(yǔ)料庫(kù)包括話(huà)題詞、內(nèi)容、評(píng)論;之后將數(shù)據(jù)保存到新的CSV文件中。
4.根據(jù)權(quán)利要求1所述的一種基于主題挖掘和情感分析的微博輿情可視分析方法,其特征在于:所述S2中,使用貝葉斯模型對(duì)預(yù)處理后的數(shù)據(jù)進(jìn)行主題分類(lèi),主題類(lèi)別根據(jù)輿情期間的微博分類(lèi)決定;
樸素貝葉斯方法是在貝葉斯算法的基礎(chǔ)上進(jìn)行了相應(yīng)的簡(jiǎn)化,即假定給定目標(biāo)值時(shí)屬性之間相互條件獨(dú)立;具體操作為:
設(shè)每個(gè)數(shù)據(jù)樣本用一個(gè)n維特征向量來(lái)描述n個(gè)屬性的值,即:X={x1,x2,…,xn},假定有m個(gè)類(lèi),分別用C1,C2,…,Cm表示;給定一個(gè)未知的數(shù)據(jù)樣本X,即沒(méi)有類(lèi)標(biāo)號(hào),若樸素貝葉斯分類(lèi)法將未知的樣本X分配給類(lèi)Ci,則為:
P(Ci|X)P(Cj|X)1≤j≤m,j≠i
根據(jù)貝葉斯定理:
由于P(X)對(duì)于所有類(lèi)為常數(shù),最大化后驗(yàn)概率P(Ci|X)轉(zhuǎn)化為最大化先驗(yàn)概率P(X|Ci)P(Ci);如果訓(xùn)練數(shù)據(jù)集有許多屬性和元組,設(shè)各屬性的取值互相獨(dú)立,從訓(xùn)練數(shù)據(jù)集求得先驗(yàn)概率P(x1|Ci),P(x2|Ci),…,P(xn|Ci);
對(duì)一個(gè)未知類(lèi)別的樣本X,先分別計(jì)算出X屬于每一個(gè)類(lèi)別Ci的概率P(X|Ci)P(Ci),然后選擇其中概率最大的類(lèi)別作為其類(lèi)別。
5.根據(jù)權(quán)利要求1所述的一種基于主題挖掘和情感分析的微博輿情可視分析方法,其特征在于:所述S2中,對(duì)主題分類(lèi)后的數(shù)據(jù),使用TF-IDF特征提取和生成,建立整個(gè)語(yǔ)料庫(kù)的特征向量空間模型;
TF代表這一個(gè)詞在一篇文檔中出現(xiàn)的次數(shù),IDF代表這一個(gè)詞在文檔集中的多少篇文檔中出現(xiàn),由TF和IDF相乘,得到一個(gè)具體的詞對(duì)于一篇文檔的重要程度;對(duì)每一篇文檔的所有維度進(jìn)行該文檔的重要程度計(jì)算,生成每一篇文檔的TF-IDF特征向量。
該專(zhuān)利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專(zhuān)利權(quán)人授權(quán)。該專(zhuān)利全部權(quán)利屬于重慶郵電大學(xué),未經(jīng)重慶郵電大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買(mǎi)此專(zhuān)利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202210201566.5/1.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專(zhuān)利網(wǎng)。





