[發明專利]一種基于海量數據的網絡行為識別方法及裝置在審
| 申請號: | 201611146289.3 | 申請日: | 2016-12-13 |
| 公開(公告)號: | CN108228591A | 公開(公告)日: | 2018-06-29 |
| 發明(設計)人: | 蘭燁;劉立蘭;王濤;劉卓;王海磊;王正偉;王會娟;田川;焦林 | 申請(專利權)人: | 北京銳安科技有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30;H04W4/02 |
| 代理公司: | 北京君尚知識產權代理事務所(普通合伙) 11200 | 代理人: | 司立彬 |
| 地址: | 100192 北京市海*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 有效數據 原始數據 網絡行為 海量數據 提取規則 字段 存儲 規則數據庫 全文數據庫 存儲目標 目標網絡 提取位置 同一記錄 應用信息 用戶代理 查詢 記錄 統計 | ||
本發明公開了一種基于海量數據的網絡行為識別方法及裝置。本方法為:1)從全文數據庫系統中提取原始數據,并從提取的原始數據中提取公共字段和用戶代理User?Agent內容;2)根據User?Agent內容中的應用信息在預先設定的規則數據庫中查詢對應的提取規則,然后根據提取規則從原始數據中提取位置信息;3)將每一原始數據的所述位置信息與所述公共字段作為一有效數據進行存儲;4)統計存儲的有效數據,如果同一記錄i對應的有效數據不唯一,則判斷該記錄i對應的有效數據中的位置信息在tableL表中存在的個數C,其中,tableL表為存儲目標網絡行為位置信息的數據表;若C超過設定閾值,則判斷具有目標網絡行為。
技術領域:
本發明涉及網絡安全及大數據處理領域,尤其涉及一種基于海量數據的網絡行為識別方法及裝置。
背景技術:
隨著互聯網的高速發展,數據已經滲透到每一個行業和業務職能領域,逐漸成為重要的生產因素,伴隨而來的是人類可以分析和處理的海量數據。海量數據科學將成為一門專門的學科,被越來越多的人所認知。數據在人們生活中所扮演的角色,也愈來愈重要。在中型以上的城市,如北京、上海、深圳等,網民的網絡行為中產生的各類數據已經超過PB級,1PB足夠存儲整個美國人口的DNA,而且還能再克隆2倍。LBS(Location BasedServices):又稱基于位置的服務,它是通過電信移動運營商的無線電通訊網絡(如GSM網、CDMA網)或外部DXXW方式(如GPS)及其他DXXW手段獲取移動終端用戶的位置信息(地理坐標,或大地坐標),在GIS(Geographic Information System,地理信息系統)平臺的支持下,為用戶提供相應服務的一種增值業務。
基于LBS的服務業務在大數據處理得到了蓬勃地發展,各種開放式API得到了廣泛的使用。如Google,就為用戶提供了開放式的API服務。注冊用戶可以根據不同的需要來使用對應的服務,如通過IP查尋經緯度、通過WIFI MAC地址查尋、通過手機基站信息查尋地址、通過經緯度查尋地址、通過地址查尋經緯度等服務。同時,各個行業的基于LBS的業務也在蓬勃開展。在進行海量數據處理,尤其是在海量數據中提取位置信息,目前進行全文檢索提取相關數據信息的算法一般是采用各種分詞技術。
發明內容:
本發明提供一種基于海量數據的網絡行為識別方法及裝置,便于民警對網民、網站行為進行監督和規范。
第一方面,本發明實施例提供了一種基于海量數據的網絡行為識別方法,包括:
從全文數據庫系統TRS中提取原始數據。
從提取的原始數據中提取公共字段和用戶代理User-Agent內容,并從所述User-Agent內容獲取需要的應用信息。
根據所述應用信息中的URL信息,按照自定義正則表達式,計算出提取規則編號。在預先設定的規則數據庫中提取與計算所得編號對應的提取規則,并根據所述提取規則從所述原始數據中提取位置信息。
將所述位置信息與所述公共字段以數組的形式合并為一對多有效數據,在此組成的有效數據將在區別行為編號中使用。
將所述有效數據輸出到業務數據庫和/或bcp文件。
如果在數據中查詢到編號為“XXX”的記錄不唯一,則讀取出對應的所有提取規則字段內容,并根據其中的內容計算出對應的位置信息數組L[n],從L[0]到L[n-1],用位置信息做查詢,select count(*)from tableL where L[n]in tableL。查詢L[n]數組中在tableL表中存在的個數C,tableL為存儲目標網絡行為位置信息的數據表。當C超過了客戶設定的值C0,則可判斷具有目標網絡行為。C0可以由客戶設定,大于0的任意值。
第二方面,本發明實施例還提供了一種基于海量數據的目標網絡行為識別裝置,其特征在于,包括:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京銳安科技有限公司,未經北京銳安科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201611146289.3/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:用于中醫的數據處理系統
- 下一篇:基于二進制日志的數據歸檔方法及數據歸檔裝置





