[發明專利]一種基于Nginx的爬蟲流量前置限制方法有效
| 申請號: | 202110471858.6 | 申請日: | 2021-04-29 |
| 公開(公告)號: | CN113194095B | 公開(公告)日: | 2022-05-31 |
| 發明(設計)人: | 孟伸 | 申請(專利權)人: | 焦點科技股份有限公司 |
| 主分類號: | H04L9/40 | 分類號: | H04L9/40;H04L67/60 |
| 代理公司: | 南京瑞弘專利商標事務所(普通合伙) 32249 | 代理人: | 陳建和 |
| 地址: | 210032 江蘇省南京*** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 nginx 爬蟲 流量 前置 限制 方法 | ||
1.一種基于Nginx的爬蟲流量前置限制方法,其特征在于:在請求被轉發至數據服務器之前,以數據記錄的形式保存任一訪問請求的信息,基于訪問IP對訪問請求的信息進行分析,所述分析的內容包括訪問請求的訪問間隔、訪問頻率及請求頁面數,將單一流量限制擴展為多維度式流量限制,具體步驟包括:
步驟1:建立用于記錄訪問請求的信息的數據庫表,所述數據庫表用于記錄訪問請求的信息和前置處理結果,所述信息包括訪問IP、訪問者身份標識、訪問鏈接、訪問時間、訪問間隔和平均訪問間隔;所述前置處理是指訪問請求經靜態服務器進入數據服務器前的處理,所述前置處理的結果包含放行處理和拒絕處理;所述放行處理是由靜態服務器將訪問請求轉發至數據服務器,由數據服務器處理請求反饋;所述拒絕處理是由靜態服務器停止將訪問請求轉發至數據服務器,由靜態服務器直接反饋為拒絕訪問;
所述訪問間隔,是訪問IP的本次訪問距離上一次訪問的時間間隔,取本次訪問時間與上一次訪問時間的差值;所述平均訪問間隔,是截止當前該訪問IP的所有訪問間隔的均值;
步驟2:訪問請求經靜態服務器轉發至后端的數據服務器的過程中,提取訪問請求的信息,根據信息中的訪問IP,查找數據庫表中是否存在該訪問IP對應的訪問請求的信息;
若沒有該訪問IP的訪問請求的信息,視為是該訪問IP的第一次訪問,按照步驟1在數據庫表中記錄并存儲本次訪問請求的信息,執行步驟3;若存在該訪問IP的訪問請求的信息和前置處理的結果,則根據前置處理的結果,對本次訪問請求執行放行處理或拒絕處理;若訪問記錄中未標記前置處理的結果,在數據庫表中新增本次訪問請求的信息,同時計算該訪問IP本次訪問的訪問間隔和平均訪問間隔,繼續執行步驟3;
步驟3:以訪問IP為單位獲取訪問請求的信息,對第一次訪問和未標記前置處理結果的訪問請求,依次按照預設的黑名單、訪問間隔及放行分數進行審核,監控1分鐘內同一個訪問IP的訪問請求的情況,通過審核則放行處理,不通過審核則拒絕處理;
所述步驟3具體包括:
步驟301:經預設的黑名單審核訪問請求,如若訪問請求的訪問者身份標識在黑名單中,則在該訪問請求對應的前置處理中標識拒絕處理;若訪問請求的信息中訪問者身份標識不在黑名單中,則執行步驟302;
步驟302:根據預設的訪問間隔審核訪問請求;具體為:預設由小至大的第一訪問間隔、第二訪問間隔和第三訪問間隔,若訪問請求的訪問間隔落在第一訪問間隔內,則在前置處理中標識為拒絕處理,若訪問請求的訪問間隔落在第二訪問間隔內,則跟蹤記錄該訪問請求在預設時間段內的深翻頁次數,若深翻頁次數大于預設值,則在前置處理中標識為拒絕處理;若訪問請求的訪問間隔落在第三訪問間隔內,則從數據庫表中刪除該訪問IP對應的所有訪問請求記錄;對通過訪問間隔審核的訪問請求,執行步驟303;所述深翻頁次數是統計當前該IP訪問同一個域名下同一個訪問路徑的次數;
步驟303:根據放行分數審核訪問請求;具體為:針對數據庫表中每個訪問IP,基于訪問間隔、訪問頻率和深翻頁次數,按照三者重要程度賦予權重值αj(j=1,2,3),權重值從大到小依次為深翻頁次數、訪問間隔和訪問頻率;利用公式進行計算放行分數pi:
其中,所述訪問頻率是指某個訪問IP在過去1秒內的訪問請求次數;
針對放行分數pi小于預設值的訪問請求,執行放行處理,數據庫表中該IP對應的前置處理結果標識放行處理;
針對放行分數pi大于預設值的訪問請求,執行拒絕處理,數據庫表中該IP對應的前置處理結果標識拒絕處理;
步驟4:定時清除前置處理結果為放行處理的訪問請求的信息:預設定時清除的時間間隔,在數據庫表中篩查所有前置處理結果為放行處理的訪問請求記錄,篩選并刪除訪問請求的信息及對應的前置處理結果。
2.如權利要求1所述的一種基于Nginx的爬蟲流量前置限制方法,其特征在于:所述步驟1的數據庫表以key-Value數據結構存儲數據,其中訪問IP是key值,其余信息為Value值。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于焦點科技股份有限公司,未經焦點科技股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110471858.6/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種口罩氣閥
- 下一篇:一種制備高強度C/C復合材料與TC4合金接頭的方法





