[發(fā)明專利]一種基于話題影響力的微博話題情感分析方法在審
| 申請?zhí)枺?/td> | 201910036276.8 | 申請日: | 2019-01-15 |
| 公開(公告)號: | CN109684646A | 公開(公告)日: | 2019-04-26 |
| 發(fā)明(設(shè)計)人: | 楊璐;劉志鋒;周從華;單田華;李雷;韓飛 | 申請(專利權(quán))人: | 江蘇大學(xué) |
| 主分類號: | G06F17/27 | 分類號: | G06F17/27;G06F16/35 |
| 代理公司: | 北京中政聯(lián)科專利代理事務(wù)所(普通合伙) 11489 | 代理人: | 何浩 |
| 地址: | 212000 *** | 國省代碼: | 江蘇;32 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 微博 話題 情感分析 情感極性 標注 排序 文本 用戶影響力因子 用戶個人信息 預(yù)處理 情感傾向性 熱點話題 網(wǎng)絡(luò)輿情 文本數(shù)據(jù) 系統(tǒng)監(jiān)管 因子計算 輿情分析 相似度 聚類 采集 參考 監(jiān)測 監(jiān)管 應(yīng)用 發(fā)現(xiàn) | ||
1.一種基于話題影響力的微博話題情感分析方法,其特征為,包括以下步驟:
步驟1,通過微博提供的API接口獲取微博用戶的個人信息數(shù)據(jù),包括用戶的用戶微博數(shù)、粉絲數(shù)、關(guān)注數(shù)、評論數(shù);采用網(wǎng)絡(luò)爬蟲方式獲取大量微博文本;
步驟2,對微博文本進行數(shù)據(jù)預(yù)處理,包括過濾噪聲、分詞和去停用詞;
步驟3,將微博文本按照自帶hashtag進行粗分類,使用LDA模型進一步進行主題聚類:微博文本中經(jīng)常會出現(xiàn)##話題,首先我們可以初步按照自帶話題標簽對微博文本進行分類;其次利用LDA模型得到主題分布,將微博文本進一步地細分為各主題區(qū)間;
步驟4,對部分微博文本進行情感極性標注,若該條微博文本情感傾向為正向,則標記為1,否則標記為-1;利用標注微博文本集進行訓(xùn)練并優(yōu)化,生成SVM情感分類器;使用SVM分類器得到未標注微博文本情感極值;
步驟5,根據(jù)步驟1所采集到數(shù)據(jù)計算用戶影響力和話題內(nèi)該用戶發(fā)布的微博文本與話題相似度來計算該文本的話題影響力;
步驟6,計算出該微博文本的主流情感傾向及情感值并對話題情感值進行排序;感極性值P接近0,則該話題為中性;P>0,則該話題為正向;P<0代表該話題為負面情緒;若一個話題負向情感值極高,則說明該話題很有可能引起突發(fā)輿情事件,應(yīng)做出輿情預(yù)警。
2.如權(quán)利要求1所述的一種基于話題影響力的微博話題情感分析方法,其特征為,步驟3中LDA模型進行主題聚類的方法為:
過程3.1,根據(jù)已有標簽的微博文本語料庫進行學(xué)習,生成LDA主題模型;具體LDA主題模型生成過程可以描述如下:
3.1.1,文本d中詞項總數(shù)Nd服從泊松分布,其參數(shù)為ξ:Nd~Poisson(ξ);
3.1.2,對每篇文檔d,按概率生成其主題分布:
3.1.3,對每個主題z,按概率生成其詞項分布:
3.1.4,根據(jù)主題分布和詞語分布生成文本中的每一個詞語;
LDA模型生成過程中,所有觀測變量和隱含變量在給定超參數(shù)下聯(lián)合概率為
過程3.2,采用Gibbs抽樣算法對生成的LDA主題模型進行主題抽取;
過程3.3,對需要進行主題分類的文本利用Gibbs抽樣算法推斷其主題分布概率。
3.如權(quán)利要求1所述的一種基于話題影響力的微博話題情感分析方法,其特征為,步驟4中SVM分類器預(yù)測未標注文本情感傾向的方法為:
過程4.1,選取部分微博文本進行人工標注作為訓(xùn)練集,其余采集的未標注微博文本作為測試集;
過程4.2,特征提取,選取一些文本特征進行訓(xùn)練,包括詞性、情感詞、否定詞、程度副詞及特殊符號;
過程4.3,對特征進行降維,不斷優(yōu)化模型直至生成SVM分類器;
過程4.4,利用SVM分類器預(yù)測得到微博情感極值。
4.如權(quán)利要求1所述的一種基于話題影響力的微博話題情感分析方法,其特征為,步驟5中話題影響力和話題情感值的計算方法為:
過程5.1,根據(jù)采集到的用戶數(shù)據(jù)進行標準化和歸一化處理,篩選用戶的微博發(fā)布數(shù)、評論數(shù)、粉絲數(shù)和被提及次數(shù);計算出對于話題傳播影響最大的屬性特征值——活躍度H、傳播力C、覆蓋度G;通過用戶影響力計算公式來得到用戶影響力;
過程5.2,通過TF-IDF算法計算文本內(nèi)容和話題的相似度作為話題影響力的因子;
過程5.3,根據(jù)用戶影響力以及微博相似度來計算該條微博文本的話題影響力。
5.如權(quán)利要求4所述的一種基于話題影響力的微博話題情感分析方法,其特征為,過程5.1中,微波發(fā)布數(shù)包括原創(chuàng)和轉(zhuǎn)發(fā)微博的總數(shù)。
6.如權(quán)利要求1所述的一種基于話題影響力的微博話題情感分析方法,其特征為,步驟6中話題的主流情感傾向及情感值的計算方法為:
過程6.1,選取一段時間,統(tǒng)計該段時間內(nèi)話題內(nèi)發(fā)布微博的用戶數(shù);
過程6.2,根據(jù)SVM分類器的情感極性預(yù)測結(jié)果計算情感極性為正、負向的用戶集合;
過程6.3,根據(jù)不同用戶的不同微博文本的話題影響力來計算整個話題的情感傾向及情感值。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于江蘇大學(xué),未經(jīng)江蘇大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910036276.8/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 上一篇:中文分詞方法及裝置
- 下一篇:電影評論情感分析方法及裝置





