[發明專利]一種微博情感可視化方法在審
| 申請號: | 201410254028.8 | 申請日: | 2014-06-09 |
| 公開(公告)號: | CN104239383A | 公開(公告)日: | 2014-12-24 |
| 發明(設計)人: | 任福繼;劉寧;康鑫 | 申請(專利權)人: | 合肥工業大學 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30;G06F17/27 |
| 代理公司: | 安徽合肥華信知識產權代理有限公司 34112 | 代理人: | 余成俊 |
| 地址: | 230009 *** | 國省代碼: | 安徽;34 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 情感 可視化 方法 | ||
1.一種微博情感可視化方法,其特征在于:包括以下步驟:
(1)、擴充指定話題關鍵詞集合:
由于微博內容上的口語化,獲取到的指定話題微博數據中,指定話題原有的種子關鍵詞并不是規范化表述,此時需要將指定話題原有的的種子關鍵詞口語話、俚語化,擴充步驟如下:
(1.1)、將指定話題微博文本分詞,統計詞頻,并確定指定話題原有的種子關鍵詞;
(1.2)、按詞頻排序,取前20個詞作為候選指定話題種子關鍵詞;
(1.3)、根據公式(1)計算20個候選指定話題種子關鍵詞與指定話題原有的種子關鍵詞的相似度:
其中,word_seedj表示指定話題原有的種子關鍵詞,wordi表示候選指定話題種子關鍵詞,p(word_seedj,wordi)表示指定話題原有的種子關鍵詞與候選指定話題種子關鍵詞在微博文本中同時出現的概率,p(word_seedj)表示指定話題原有的種子關鍵詞在微博文本中出現的概率,p(wordi)表示候選指定話題種子關鍵詞在微博文本中出現的概率,d表示候選指定話題種子關鍵詞與指定話題原有的種子關鍵詞的相似性;
(1.4)、根據步驟(1.3)的計算結果,取相似度排名前10個的候選指定話題種子關鍵詞作為擴充的種子關鍵詞,擴充的種子關鍵詞與指定話題原有的種子關鍵詞一起作為話題關鍵詞集合,記為K;
(2)、分離指定話題微博數據:將指定話題微博數據按照微博所屬城市拆分為地區微博數據,記為Dcity;根據微博發布時間,以天為單位,將指定話題微博數據拆分為時間微博數據,記為Dtime;
(3)、將步驟(2)獲取的地區微博數據按照時間以天為單位拆分為地區時分微博數據,記為Dcitytime;
(4)、統計指定話題微博數據分離后的時間微博數據Dtime中的種子關鍵詞的頻率,按天計算所有種子關鍵詞的頻率和即為指定話題微博數據中該話題當天的關注度,根據統計數據,采用折線圖,不同話題選擇不同的顏色區分,以關鍵詞頻率為縱軸,以時間為橫軸,即可得到以天為單位的指定話題指定時間段內全國關注度趨勢圖;統計地區時分微博數據Dcitytime中的種子關鍵詞的頻率,按照上述方法,以關鍵詞頻率為縱軸,以時間及城市為橫軸,即可得到指定話題地區關注度趨勢對比圖,當前話題地區關注度趨勢對比圖中采用簇狀柱狀圖表示對比信息;
(5)、作指定話題全國情感分布圖及地區分布圖,過程如下:
(5.1)、計算指定話題微博數據的時間微博數據Dtime及地區時分微博數據Dcitytime;獲得指定話題每天的8維微博情感結果,如公式(2)所示:
E=(ehate,eanger,esorrow,eanxiety,esurprise,elove,ejoy,eexpect)??(2)
其中,公式(2)中的向量元素依次表示指定話題微博在憎恨、生氣、悲傷、焦慮、驚訝、喜愛、高興、期望8種情感下的情感強度值;
(5.2)、采用三維堆積柱狀圖表示指定話題微博每天的情感強度值,分別使用RGB色#EE9572、#9AC0CD、#CD8162、#5CACEE、#5D478B、#6E8B3D、#8B2500、#3A5FCD表示憎恨、生氣、悲傷、焦慮、驚訝、喜愛、高興、期望8種情感,以情感強度為橫軸,以時間線及地區為縱軸,做出指定話題微博地區情感分布圖,并以情感強度為橫軸,以時間線為縱軸,做出指定話題微博全國情感分布圖。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于合肥工業大學,未經合肥工業大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201410254028.8/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種自動貼標簽裝置
- 下一篇:冷軋生產過程中高頻數據的檢索與存儲方法





