[發(fā)明專利]一種網(wǎng)絡數(shù)據(jù)獲取識別方法以及裝置有效
| 申請?zhí)枺?/td> | 202010627703.2 | 申請日: | 2020-07-01 |
| 公開(公告)號: | CN111818038B | 公開(公告)日: | 2023-01-31 |
| 發(fā)明(設計)人: | 范曉鋒;方慶遠 | 申請(專利權)人: | 拉扎斯網(wǎng)絡科技(上海)有限公司 |
| 主分類號: | H04L9/40 | 分類號: | H04L9/40;G06F16/955 |
| 代理公司: | 北京清源匯知識產(chǎn)權代理事務所(特殊普通合伙) 11644 | 代理人: | 馮德魁;張艷梅 |
| 地址: | 200333 上海*** | 國省代碼: | 上海;31 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 網(wǎng)絡 數(shù)據(jù) 獲取 識別 方法 以及 裝置 | ||
本申請公開了一種網(wǎng)絡數(shù)據(jù)獲取識別方法以及裝置,該方法在獲取第二網(wǎng)絡請求所攜帶的目標加密參數(shù)之后,對該目標加密參數(shù)進行解密,獲得第一網(wǎng)絡行為背景標識,并獲取第二網(wǎng)絡請求對應的第二網(wǎng)絡行為背景標識,將上述第一網(wǎng)絡行為背景標識與第二網(wǎng)絡行為背景標識進行比對,并基于比對結果確定第二網(wǎng)絡請求對應的訪問主體是否為網(wǎng)絡數(shù)據(jù)獲取主體,其中,上述第二網(wǎng)絡請求基于第一網(wǎng)絡請求對應的網(wǎng)絡響應數(shù)據(jù)而實現(xiàn),目標加密參數(shù)為對第一網(wǎng)絡請求對應的第一網(wǎng)絡行為背景標識進行加密處理后所獲得的參數(shù)。通過使用該方法,可針對網(wǎng)絡數(shù)據(jù)獲取任務調度系統(tǒng)及其獲取策略分配機制下的數(shù)據(jù)獲取操作進行精準識別。
技術領域
本申請涉及計算機技術領域,具體涉及一種網(wǎng)絡數(shù)據(jù)獲取識別方法。本申請同時涉及一種網(wǎng)絡數(shù)據(jù)獲取識別裝置、一種電子設備以及一種計算機可讀取存儲介質。
背景技術
網(wǎng)絡數(shù)據(jù)獲取是指按照預設數(shù)據(jù)獲取規(guī)則、通過程序或者腳本自動獲取萬維網(wǎng)信息,該過程可能導致網(wǎng)站的網(wǎng)絡資源、計算資源等被不當占用,造成網(wǎng)站功能受損。例如,在網(wǎng)絡購物場景或生活服務類網(wǎng)絡應用場景中,上述網(wǎng)絡數(shù)據(jù)獲取過程可能導致網(wǎng)絡平臺的商戶信息、商品信息等被惡意批量獲取;對于內容發(fā)布網(wǎng)站而言,可能導致網(wǎng)站的知識產(chǎn)權被惡意侵犯。
網(wǎng)絡數(shù)據(jù)獲取主體通常可以通過HTTP請求來獲取目標數(shù)據(jù)內容,HTTP請求的URL地址(Uniform Resource Locator,統(tǒng)一資源定位符)中會有相應的參數(shù)對應目標數(shù)據(jù)內容,網(wǎng)絡數(shù)據(jù)獲取主體從一個或若干初始網(wǎng)頁對應的URL開始,獲得初始網(wǎng)頁URL之后根據(jù)網(wǎng)頁獲取策略,不斷抽取新的URL放入獲取隊列,并基于該URL獲取目標數(shù)據(jù)內容,直到滿足某種停止條件。
現(xiàn)有的針對網(wǎng)絡數(shù)據(jù)獲取行為的識別及攔截技術包括基于IP維度對抗、賬戶維度對抗、驗證碼、動態(tài)頁面結構、限制訪問量和下載量、文字轉圖片以及動態(tài)參數(shù)等方式,其中,基于動態(tài)參數(shù)的針對網(wǎng)絡數(shù)據(jù)獲取行為的識別及攔截技術在一定程度上增加了網(wǎng)絡數(shù)據(jù)獲取行為的成本、也增加了識別和攔截網(wǎng)絡數(shù)據(jù)獲取行為的機會。例如,外賣網(wǎng)站將商戶對應的URL進行動態(tài)化處理,其具體為,將商戶對應的URL中的商戶ID分化區(qū)分為商戶內部ID和外部動態(tài)ID,內部ID為網(wǎng)站內部各系統(tǒng)之間用于指定商戶對象的傳遞參數(shù),其一般為固定字符串,外部動態(tài)ID一般是數(shù)字經(jīng)過映射后所獲得的定時或不定時變化的動態(tài)字符串,以使網(wǎng)絡數(shù)據(jù)獲取主體無法通過同一靜態(tài)URL向網(wǎng)站請求商戶的數(shù)據(jù)內容,而是在不同的時間點需先找到商戶對應的動態(tài)URL的確切的值,例如,通過在網(wǎng)站搜索該商戶的名稱,該種方式增加了網(wǎng)絡數(shù)據(jù)獲取主體為獲取一個目標數(shù)據(jù)內容而與網(wǎng)站交互的次數(shù),既增加獲取成本,也增加網(wǎng)站識別和攔截網(wǎng)絡數(shù)據(jù)獲取行為的機會。
為了對抗上述基于動態(tài)參數(shù)的針對網(wǎng)絡數(shù)據(jù)獲取行為的識別及攔截技術,實現(xiàn)高效遍歷網(wǎng)站全部內容,網(wǎng)絡數(shù)據(jù)獲取系統(tǒng)增設任務調度系統(tǒng)以及獲取策略分配機制,即,通過前序網(wǎng)絡數(shù)據(jù)獲取實例定時獲取目標網(wǎng)站的目標數(shù)據(jù)內容的前序頁面,并將前序網(wǎng)絡數(shù)據(jù)獲取實例獲得的URL分配給其它網(wǎng)絡數(shù)據(jù)獲取實例繼續(xù)執(zhí)行后續(xù)獲取操作,例如,在獲取商戶詳情頁面之前先通過前序網(wǎng)絡數(shù)據(jù)獲取實例獲取商戶列表頁面,并將商戶詳情頁面對應的動態(tài)URL分配給后續(xù)網(wǎng)絡數(shù)據(jù)獲取實例,由后續(xù)網(wǎng)絡數(shù)據(jù)獲取實例獲取商戶詳情頁面,由于不同的網(wǎng)絡數(shù)據(jù)獲取實例一般會使用不同的IP地址、不同的賬戶,在目標網(wǎng)站看來,每個IP、每個賬戶上沒有明顯的密集操作,從而使得網(wǎng)絡數(shù)據(jù)獲取主體繞過針對網(wǎng)絡數(shù)據(jù)獲取行為的識別及攔截技術中對單IP、或者單賬號的訪問量的限制,以此實現(xiàn)獲取大量網(wǎng)絡數(shù)據(jù)的目的。
基于此,如何針對網(wǎng)絡數(shù)據(jù)獲取任務調度系統(tǒng)及其獲取策略分配機制下的數(shù)據(jù)獲取操作進行精準識別,是目前急需解決的問題。
發(fā)明內容
本申請實施例提供一種網(wǎng)絡數(shù)據(jù)獲取識別方法、裝置、電子設備及計算機可讀存儲介質,以針對網(wǎng)絡數(shù)據(jù)獲取任務調度系統(tǒng)及其獲取策略分配機制下的數(shù)據(jù)獲取操作進行精準識別。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于拉扎斯網(wǎng)絡科技(上海)有限公司,未經(jīng)拉扎斯網(wǎng)絡科技(上海)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業(yè)授權和技術合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010627703.2/2.html,轉載請聲明來源鉆瓜專利網(wǎng)。
- 網(wǎng)絡和網(wǎng)絡終端
- 網(wǎng)絡DNA
- 網(wǎng)絡地址自適應系統(tǒng)和方法及應用系統(tǒng)和方法
- 網(wǎng)絡系統(tǒng)及網(wǎng)絡至網(wǎng)絡橋接器
- 一種電力線網(wǎng)絡中根節(jié)點網(wǎng)絡協(xié)調方法和系統(tǒng)
- 一種多網(wǎng)絡定位方法、存儲介質及移動終端
- 網(wǎng)絡裝置、網(wǎng)絡系統(tǒng)、網(wǎng)絡方法以及網(wǎng)絡程序
- 從重復網(wǎng)絡地址自動恢復的方法、網(wǎng)絡設備及其存儲介質
- 神經(jīng)網(wǎng)絡的訓練方法、裝置及存儲介質
- 網(wǎng)絡管理方法和裝置
- 數(shù)據(jù)顯示系統(tǒng)、數(shù)據(jù)中繼設備、數(shù)據(jù)中繼方法、數(shù)據(jù)系統(tǒng)、接收設備和數(shù)據(jù)讀取方法
- 數(shù)據(jù)記錄方法、數(shù)據(jù)記錄裝置、數(shù)據(jù)記錄媒體、數(shù)據(jù)重播方法和數(shù)據(jù)重播裝置
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)發(fā)送系統(tǒng)、數(shù)據(jù)發(fā)送裝置以及數(shù)據(jù)結構
- 數(shù)據(jù)顯示系統(tǒng)、數(shù)據(jù)中繼設備、數(shù)據(jù)中繼方法及數(shù)據(jù)系統(tǒng)
- 數(shù)據(jù)嵌入裝置、數(shù)據(jù)嵌入方法、數(shù)據(jù)提取裝置及數(shù)據(jù)提取方法
- 數(shù)據(jù)管理裝置、數(shù)據(jù)編輯裝置、數(shù)據(jù)閱覽裝置、數(shù)據(jù)管理方法、數(shù)據(jù)編輯方法以及數(shù)據(jù)閱覽方法
- 數(shù)據(jù)發(fā)送和數(shù)據(jù)接收設備、數(shù)據(jù)發(fā)送和數(shù)據(jù)接收方法
- 數(shù)據(jù)發(fā)送裝置、數(shù)據(jù)接收裝置、數(shù)據(jù)收發(fā)系統(tǒng)、數(shù)據(jù)發(fā)送方法、數(shù)據(jù)接收方法和數(shù)據(jù)收發(fā)方法
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)再現(xiàn)方法、數(shù)據(jù)發(fā)送裝置及數(shù)據(jù)再現(xiàn)裝置
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)再現(xiàn)方法、數(shù)據(jù)發(fā)送裝置及數(shù)據(jù)再現(xiàn)裝置





