[發明專利]一種敏感數據接口爬蟲識別方法及裝置在審
| 申請號: | 202111100833.1 | 申請日: | 2021-09-18 |
| 公開(公告)號: | CN113821754A | 公開(公告)日: | 2021-12-21 |
| 發明(設計)人: | 葛勝利;魏國富;夏玉明 | 申請(專利權)人: | 上海觀安信息技術股份有限公司 |
| 主分類號: | G06F16/958 | 分類號: | G06F16/958;G06F21/55;H04L29/06;H04L29/08 |
| 代理公司: | 合肥市浩智運專利代理事務所(普通合伙) 34124 | 代理人: | 丁瑞瑞 |
| 地址: | 200333 上海市浦東新*** | 國省代碼: | 上海;31 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 敏感數據 接口 爬蟲 識別 方法 裝置 | ||
1.一種敏感數據接口爬蟲識別方法,其特征在于,所述方法包括以下步驟:
步驟一:獲取網站的web訪問日志;
步驟二:根據web訪問日志對爬蟲進行識別;
步驟三:判斷爬蟲類型;
步驟四:按照不同的爬蟲類型使用爬蟲的參數向網站發起請求,獲取請求響應的內容,并按照請求url歸集請求響應的內容,將網站返回的內容的文本部分按照歸集域名分組進行存儲;
步驟五:提取存儲的文本的特征數據,每個域名下的文本對應提取出重要鏈接地址、文本關鍵詞結果;
步驟六:使用敏感數據發現技術識別文本關鍵詞結果中是否存在敏感信息,并輸出對應的結果。
2.根據權利要求1所述的一種敏感數據接口爬蟲識別方法,其特征在于,所述web訪問日志包括請求的時間、IP地址、用戶身份信息、sessionid、requestbody、responbody、method、status,用戶身份信息包括賬號、cookie、uuid。
3.根據權利要求1所述的一種敏感數據接口爬蟲識別方法,其特征在于,所述步驟二中采用基于用戶行為序列的異常檢測方法或者規則引擎方法識別爬蟲。
4.根據權利要求1所述的一種敏感數據接口爬蟲識別方法,其特征在于,所述步驟三中爬蟲類型包括修改url中的參數進行頁面切換或者相同url通過修改POST內容請求傳不同參數進行頁面切換。
5.根據權利要求4所述的一種敏感數據接口爬蟲識別方法,其特征在于,所述步驟四包括:
步驟401:按照不同的爬蟲類型使用爬蟲的參數向網站發起Request請求,請求中包含額外的headers信息,從而進行爬蟲請求模擬;
步驟402:對爬蟲訪問的網站進行頁面解析,獲取網站頁面返回的信息,得到請求響應的內容;
步驟403:按照請求url歸集請求響應的內容,如果是通過修改url中的參數進行頁面切換模式的爬蟲地址,則保留爬蟲地址的非參數部分,作為歸集域名,如果通過修改POST內容請求傳不同參數進行頁面切換模式的爬蟲地址,直接使用爬蟲地址的域名作為歸集域名;將網站返回的多個文本部分按照歸集域名分組進行存儲。
6.根據權利要求1所述的一種敏感數據接口爬蟲識別方法,其特征在于,所述步驟五包括:
通過公式
計算詞語頻率,提取存儲的文本中詞語頻率超過閾值的詞語作為特征數據,每個域名下的文本按照詞語頻率對應提取出重要鏈接地址、文本關鍵詞結果;其中,ni,j表示詞語ti在文本j中出現的次數,表示文本j中所有詞語頻詞和,表示語料庫中所有詞語頻數之和,nti表示詞語ti在語料庫中出現的總頻數。
7.根據權利要求1所述的一種敏感數據接口爬蟲識別方法,其特征在于,所述敏感信息包括手機號碼、姓名、地址、車牌號、身份證號碼。
8.根據權利要求1所述的一種敏感數據接口爬蟲識別方法,其特征在于,還包括步驟七:
對步驟六識別出的具有敏感數據接口的爬蟲統計url歸集請求數量、訪問速率、請求IP地址個數、IP訪問url數量、請求useragent個數、返回200數量、訪問Referer數量、訪問Method類型、url涉敏感數據類型,根據統計結果輸出爬蟲風險等級以及攻擊類型。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于上海觀安信息技術股份有限公司,未經上海觀安信息技術股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202111100833.1/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:地埋式一體化污水處理設備
- 下一篇:一種帶樂譜架與樂器支架的琴盒





