[發明專利]一種基于社交網絡社團劃分的輿情監測方法及系統在審
| 申請號: | 201811003762.1 | 申請日: | 2018-08-30 |
| 公開(公告)號: | CN109522460A | 公開(公告)日: | 2019-03-26 |
| 發明(設計)人: | 胡浩;唐文杰;臧冬松;雷力搏;杜俊霖 | 申請(專利權)人: | 中國電子進出口有限公司 |
| 主分類號: | G06F16/951 | 分類號: | G06F16/951;G06F17/27 |
| 代理公司: | 北京君尚知識產權代理事務所(普通合伙) 11200 | 代理人: | 邱曉鋒 |
| 地址: | 100036 北京市*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 監測 監控環境 社交網絡 社團 社交網絡分析 網絡數據收集 文本處理模塊 多維度分析 數據預處理 處理效率 調度模塊 定義網絡 獲取數據 計算模塊 監測模塊 監測系統 網絡構建 網絡數據 網絡輿情 輿情分析 重復內容 數據處理 結構化 過濾 | ||
1.一種基于社交網絡社團劃分的輿情監測方法,其特征在于,包括以下步驟:
S1:通過網絡爬蟲對所需要監控的一種或多種社交網絡平臺進行數據獲取,包括用戶關注關系或好友關系、用戶發文消息、用戶發文數、用戶關注數、用戶粉絲數;
S2:對步驟S1獲取的用戶發文消息進行預處理,包括結構化數據處理和過濾重復內容;
S3:對步驟S1獲取到的用戶關注關系或好友關系進行網絡構建,得到用戶關系網絡,所述用戶關系網絡的節點表示用戶,邊表示用戶之間的關注或好友關系;
S4:對步驟S3構建的用戶關系網絡進行社團劃分;
S5:對步驟S4所劃分的社團結合步驟S2獲取的預處理之后的用戶發文消息實施輿情監測,得到所關注的相關輿情分析結果。
2.根據權利要求1所述的方法,其特征在于,步驟S2對文本數據集的預處理方法為:
S21:如果關注的語言為中文、泰語、緬甸語,則進行分詞處理,如果是英語、西班牙語則不需要進行分詞處理;
S22:將步驟S21得到的數據進行停用詞、非法字符處理,降噪;
S23:去掉用戶發文數、用戶關注數、用戶粉絲數較少的用戶數據;
S24:將用戶發文消息或轉發消息中包含的URL鏈接提取并補充至當前用戶發文消息作為補充。
3.根據權利要求1所述的方法,其特征在于,步驟S4對用戶關系網絡進行基于模塊度的社團劃分。
4.根據權利要求3所述的方法,其特征在于,步驟S4所述社團劃分包括以下步驟:
S41:模塊度是用戶關系網絡中連接社團內部頂點的邊所占的比例,減去連接該社團的外部節點與該社團內任意節點連接權重之和所占比例的期望值,計算公式如下:
其中,∑in表示社團c內部的權重,∑tot表示與社團c內部點連接的邊的權重,包括社團內部以及外部的邊,m表示網絡中所有節點之間的權重之和;
S42:初始化,將用戶關系網絡中的每個點劃分在不同的社區中;
S43:將每個點嘗試劃分到與其鄰接的點所在的社區中,計算此時的模塊度,判斷劃分前后的模塊度的差值ΔQ是否為正數,若為正數,則接受本次的劃分,若不為正數,則放棄本次的劃分;
S44:重復以上的過程,直到不能再增大模塊度為止;
S45:構造新圖,新圖中的每個點代表的是步驟S44中劃出來的每個社區,繼續執行步驟S42和步驟S43,直到社區的結構不再改變為止。
5.根據權利要求1所述的方法,其特征在于,步驟S5所述輿情監測的方法為:
S51:對步驟S4得到的社團劃分結果,設定最小社團包含用戶的數量為N,丟棄用戶數量低于N的社團;
S52:分析通過S51過濾掉的每一個社團,分析方法為:對每一個社團,對其成員用戶的每一條消息進行命名實體識別、關鍵字提取,最后統計每一個社團所提取的實體和關鍵字,按出現次數由多到少進行排序,取排序結果中Top N作為該社團的標簽;
S53:通過步驟S52得到每一個社團的標簽集合,結合用戶自定義的輿情關鍵字信息,抽取其中感興趣的輿情結果。
6.一種采用權利要求1所述方法的基于社交網絡社團劃分的輿情監測系統,其特征在于,包括網絡數據收集模塊、輿情調度模塊、文本處理模塊、輿情計算模塊和輿情監測模塊;
所述網絡數據收集模塊對一種或多種社交網絡平臺進行離線或實時數據采集;
所述輿情調度模塊實現數據采集相關任務配置和調度;
所述文本處理模塊對文本消息進行命名實體識別和關鍵詞提取;
所述輿情計算模塊實現用戶關系網絡構建,對構建的用戶關系網絡進行社團劃分,并統計文本處理模塊計算出的命名實體以及關鍵字,并適當分析;
所述輿情監測模塊具有分析社團標簽和向用戶提供指定輿情服務的功能。
7.根據權利要求6所述的系統,其特征在于,所述輿情計算模塊對用戶關系網絡進行基于模塊度的社團劃分。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中國電子進出口有限公司,未經中國電子進出口有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201811003762.1/1.html,轉載請聲明來源鉆瓜專利網。





