[發明專利]基于微信群信息的數據分析系統在審
| 申請號: | 201810403059.3 | 申請日: | 2018-04-28 |
| 公開(公告)號: | CN108880980A | 公開(公告)日: | 2018-11-23 |
| 發明(設計)人: | 劉春陽;張旭;梁汝鋒;張傳新;劉正陽;李雄;劉巨安;王菲 | 申請(專利權)人: | 國家計算機網絡與信息安全管理中心;北京藍光匯智網絡科技有限公司 |
| 主分類號: | H04L12/58 | 分類號: | H04L12/58;H04L12/18;H04L29/08;H04W4/08 |
| 代理公司: | 北京遠大卓悅知識產權代理事務所(普通合伙) 11369 | 代理人: | 史霞 |
| 地址: | 100029*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 信群 哈希 數據分析系統 信息采集模塊 消息屬性 預設 直觀 關鍵詞提取模塊 采集 緩存 對象存儲模塊 數據分析模塊 多媒體提取 消息庫模塊 哈希運算 順序采集 消息刪除 消息數據 重復 去重 解析 發送 監測 展示 統計 分析 | ||
本發明公開一種基于微信群信息的數據分析系統,包括:信息采集模塊,其每隔預設時間按發送順序采集一批預設數量的微信群消息的html標簽;數據分析模塊,其將信息采集模塊采集到的html標簽通過正則解析得出其中包含的每條群消息的屬性,所述群消息屬性包括群編號、群消息編號;緩存去重模塊,其將每條群消息屬性包含的群編號和群消息編號進行哈希運算得到哈希值,再將相鄰兩批次中的每條群消息的哈希值對比,若有重復部分,則將后一批次中哈希值重復的群消息刪除;多媒體提取模塊;對象存儲模塊;關鍵詞提取模塊;群消息庫模塊。本發明具有能將采集到的微信群消息數據進行分析和統計,最后直觀的展示出來,可以有效、直觀的監測微信群的優點。
技術領域
本發明涉及信息技術領域。更具體地說,本發明涉及一種基于微信群信息的數據分析系統。
背景技術
當今社會,互聯網發展十分迅速,導致網民的數量急劇上升。隨著網民數量的上升,互聯網越來越成為人們獲取信息的主要途徑,一些有影響力的門戶網站,博客,社交工具逐漸變得越來越受歡迎。
在眾多社交工具中微信群成為最受人們歡迎的交流方式之一。這種通過微信在網上把人與人聯結在一起的虛擬社群,正在滲透和影響著人們的身心和生活。在群里可以分享一切你想與大家分享溝通的信息。但是,在互聯網快速發展的同時,也不斷的產生一些問題。少數不法分子借助互聯網開放自由的特性,傳播一些不法信息,嚴重影這社會安定團結,這就需要對微信群進行實時的查看。
但是,微信群用戶眾多,數據量每天都在以驚人的速度增長,如何高效率的對微信群信息進行實時的查看成為了難題。針對此難題,需要一種有效的基于微信群的數據分析系統及方法。
目前,對微信群查看存在著一定的問題:1、完全依靠人工操作,監測人員無法對微信群群內的信息進行類型和時間區間的篩選,而且對于某個關鍵詞,無法在目前正在監測的微信群群內的言論中進行檢索,大大降低的查看的效率。2、監測人員不能直觀且清晰的看到群內主要討論的內容以及微信群的活躍度,只能定性模糊的對微信群進行審查。
發明內容
本發明的一個目的是解決至少上述問題,并提供至少后面將說明的優點。
本發明還有一個目的是提供一種將采集到的微信群消息數據進行分析和統計,最后直觀的展示出來,以此達到可以有效、直觀的查看微信群的目的的基于微信群信息的數據分析系統。
為了實現根據本發明的這些目的和其它優點,提供了一種基于微信群信息的數據分析系統,包括:
信息采集模塊,其每隔預設時間按發送順序采集一批預設數量的微信群消息的html標簽;
數據分析模塊,其將信息采集模塊采集到的html標簽通過正則解析得出其中包含的每條群消息的屬性,所述群消息屬性包括群編號、群消息編號、群消息類型、群消息發送時間和群消息主體,所述數據分析模塊將不同的群消息類型賦予不同的數值;
緩存去重模塊,其將每條群消息屬性包含的群編號和群消息編號進行哈希運算得到哈希值,再將相鄰兩批次中的每條群消息的哈希值對比,若有重復部分,則將后一批次中哈希值重復的群消息刪除;
多媒體提取模塊,其根據群消息類型的數值識別出不同類型的群消息,并將群消息主體中包含多媒體文件鏈接的多媒體文件內容進行下載,再以每條群消息的哈希值為鍵,以每條群消息主體的內容為值生成鍵值對;
對象存儲模塊,其存儲每條群消息的鍵值對;
關鍵詞提取模塊,其對包含文字內容的群消息主體進行關鍵詞提取運算提取出其中的關鍵詞;
群消息庫模塊,其存儲除群消息主體以外的每條群消息的屬性和哈希值,若群消息主體中包含文字內容,所述群消息庫模塊還繼續存儲該群消息的關鍵詞。
優選的是,還包括:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于國家計算機網絡與信息安全管理中心;北京藍光匯智網絡科技有限公司,未經國家計算機網絡與信息安全管理中心;北京藍光匯智網絡科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810403059.3/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:通信控制方法
- 下一篇:一種基于物聯網的智能機器人提醒系統





