[發明專利]一個基于社交媒體的突發事件多維分析系統有效
| 申請號: | 201810585216.7 | 申請日: | 2018-06-08 |
| 公開(公告)號: | CN108897784B | 公開(公告)日: | 2022-08-02 |
| 發明(設計)人: | 趙吉昌;范銳;許可 | 申請(專利權)人: | 北京航空航天大學 |
| 主分類號: | G06F16/35 | 分類號: | G06F16/35;G06F16/9532;G06K9/62 |
| 代理公司: | 北京中創陽光知識產權代理有限責任公司 11003 | 代理人: | 尹振啟 |
| 地址: | 100191*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一個 基于 社交 媒體 突發事件 多維 分析 系統 | ||
1.一個基于社交媒體的突發事件多維分析系統,其特征在于包括:情感分析模塊、話題分類模塊、突發事件發現模塊和輿情分析模塊;所述情感分析模塊,完成對社交媒體文本的情緒分類,進行情感分析,進而對情緒分類,所述分類結果分為憤怒、厭惡、高興、悲傷和恐懼五類,從情緒角度對突發事件進行輿情分析;所述話題分類模塊,完成對社交媒體文本的話題分類:使用樸素貝葉斯方法訓練話題分類器,將文本分為娛樂、體育、社會、軍事、國際、財經或科技話題,從話題角度對突發事件進行輿情分析;所述突發事件發現模塊,完成對某一時間段內社交媒體熱點事件的自動化提取,最終檢測出的突發事件以詞袋方式呈現,為輿情分析模塊提供數據基礎;所述輿情分析模塊,實現對突發事件的自動化多維度輿情分析:從情緒、話題、人群、空間方面全方位多角度對突發事件進行分析;刻畫突發事件的情緒分布;統計突發事件的話題類別;從人群的角度進行輿情分析,包括關鍵用戶、性別以及認證用戶分析;從空間的角度進行地域分析;從傳播的角度進行轉發網絡分析;
所述話題分類器的具體實現過程為:
步驟2a,針對各類話題選擇相關的專業社交媒體賬號;
步驟2b,收集專業賬號發布的內容文本作為訓練數據;
步驟2c,訓練話題分類器,針對為話題集合C,cj為所述話題集合C中的任意一個話題,d為一條社交媒體文本,通過分詞,d可以被分為(w1,w2,...,wn),其中wi為一個中文詞,所述分類器的訓練方式為
所述P(w1,w2,...,wn)對于所有類別取值都相同,P(cj)為類先驗概率為統一設置數值,所述P(w1,w2,...,wn|cj)為基于樸素貝葉斯分類器的獨立性假設等價于所述
為訓練集中特征詞wi在話題cj中出現的先驗概率,其中,為詞匯wi在訓練集中話題為cj的文本中出現的次數,wq為任意特征詞,q為正整數;
所述突發事件發現模塊,完成對某一時間段內社交媒體熱點事件的自動化提取,為輿情分析模塊提供數據基礎,具體實現為:
步驟3a,獲取當前時間段內的社交媒體文本數據;
步驟3b,對社交媒體文本數據進行過濾與清洗;
步驟3c,根據突發性定義計算并排序過濾后的文本中的突發性詞;
步驟3d,對突發性詞進行聚類,作為當前的突發事件;
步驟3e,根據突發事件關鍵詞從當前時間段內的文本數據中抽取突發事件相關內容;
步驟3f,根據突發事件及其相關文本數據對突發事件進行過濾和排序;
所述突發事件發現模塊中突發性詞的計算,具體實現為:
步驟5a,計算當前社交媒體文本集合中出現的頻率較高的關鍵詞;
步驟5b,根據歷史數據計算具體的突發性關鍵詞,獲取當前文本數據集合中出現頻次較高但歷史數據中出現頻次較低的關鍵詞。
2.根據權利要求1所述的一個基于社交媒體的突發事件多維分析系統,其特征在于,對所述突發事件發現模塊中社交媒體文本數據實現過濾,具體實現為:
步驟4a,建立一個垃圾分類器,去除掉垃圾文本內容;
步驟4b,去除包含標簽多于2個或詞數量少于5個的社交媒體文本;
步驟4c,去除完全重復的文本;
步驟4d,使用局部敏感哈希方法去除過于相似的文本。
3.根據權利要求1所述的一個基于社交媒體的突發事件多維分析系統,所述突發事件發現模塊中的突發事件過濾與排序,具體實現為:
步驟8a,設置廣告關鍵詞名單;
步驟8b,計算突發事件中的每個關鍵詞在其相關社交媒體文本中的平均排位,將其一數值作為突發事件中關鍵詞的位次;
步驟8c,對突發事件進行排序,通過對相應關鍵詞的突發性求和來為每一個突發事件計算分值,分值高的事件將排在前面作為熱點。
4.根據權利要求1所述的一個基于社交媒體的突發事件多維分析系統,所述輿情分析模塊的具體實現過程為:
步驟9a,使用情緒分類器對每個突發事件的相關社交媒體文本進行情感分析,計算其情緒分布;
步驟9b,使用話題分類器對每個突發事件的相關社交媒體文本進行話題分類,并選取占比最高的一類作為突發事件的話題;
步驟9c,根據突發事件的相關社交媒體用戶數據對突發事件進行人群分析,包括關鍵用戶抽取、性別分析、認證用戶分析;
步驟9d,根據突發事件的相關社交媒體用戶數據對突發事件進行地域分析,計算其中用戶的地域分布;
步驟9e,根據突發事件的相關社交媒體文本內容構建轉發網絡,進行突發事件的傳播分析。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京航空航天大學,未經北京航空航天大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810585216.7/1.html,轉載請聲明來源鉆瓜專利網。





