[發明專利]數據記錄總數量獲取方法及裝置有效
| 申請號: | 201811382085.9 | 申請日: | 2018-11-20 |
| 公開(公告)號: | CN109492147B | 公開(公告)日: | 2022-02-08 |
| 發明(設計)人: | 王苗淼;薛繼東 | 申請(專利權)人: | 數貿科技(北京)有限公司 |
| 主分類號: | G06F16/951 | 分類號: | G06F16/951;G06F16/955;G06F16/958 |
| 代理公司: | 北京市浩天知識產權代理事務所(普通合伙) 11276 | 代理人: | 宋菲;劉云貴 |
| 地址: | 100083 北京市海*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 數據 記錄 數量 獲取 方法 裝置 | ||
本發明公開了一種數據記錄總數量獲取方法、裝置、計算設備及計算機存儲介質,其中,該方法包括:步驟1,根據預設起始頁碼和預設終止頁碼,確定待抓取頁碼;步驟2,依據待抓取頁碼,抓取待抓取頁碼對應的頁面信息;步驟3,根據頁面信息的頁面特征,判斷頁面信息是否為目標頁面信息;若是,則執行步驟4;若否,則執行步驟5;步驟4,根據目標頁面信息以及頁面數據記錄閾值,計算數據記錄總數量,本方法結束;步驟5,根據頁面信息的頁面特征,對預設起始頁碼或預設終止頁碼進行更新處理;而后跳轉執行步驟1。根據本發明提供的技術方案,有效地減少了抓取次數,提高了獲取數據記錄總數量的效率,優化了數據記錄總數量獲取方式。
技術領域
本發明涉及數據處理技術領域,具體涉及一種數據記錄總數量獲取方法、裝置、計算設備及計算機存儲介質。
背景技術
在電商、數字貿易、互聯網金融等技術領域中,經常會利用網絡爬蟲技術抓取同行業各平臺所公開的數據記錄的數量,得到數據記錄總數量,然后對數據記錄總數量進行分析,以達到行業分析、風險預警、戰略決策等目的。其中,數據記錄總數量可以為交易數據記錄的總數量或者評論數據記錄的總數量等。
有些目標網站并不直接展示數據記錄總數量,而是采用動態自動加載的方式逐頁顯示數據記錄,那么就無法通過抓取直接得到數據記錄總數量。在這種情況下大多采用遍歷抓取法,根據網站展示的數據記錄,逐頁地進行請求抓取,從第一個頁面一直加載到最后一個頁面,然后匯總每個頁面的數據記錄的數量,從而得到數據記錄總數量。然而這種抓取方式需要頻繁、連續地訪問目標網站,不僅增加了被目標網站拒絕訪問的風險,而且獲取數據記錄總數量的效率較低。另外,這種抓取方式的不穩定性較高,其中任何一次請求失敗都可能會導致無法獲取準確的數據記錄總數量。雖然可以在抓取過程中采用并發機制和容錯機制,例如多線程、失敗重試等策略,但是仍然難以有效避免抓取的不穩定性。
發明內容
鑒于上述問題,提出了本發明以便提供一種克服上述問題或者至少部分地解決上述問題的數據記錄總數量獲取方法、裝置、計算設備及計算機存儲介質。
根據本發明的一個方面,提供了一種數據記錄總數量獲取方法,包括:
步驟1,根據預設起始頁碼和預設終止頁碼,確定待抓取頁碼;
步驟2,依據待抓取頁碼,抓取待抓取頁碼對應的頁面信息;
步驟3,根據頁面信息的頁面特征,判斷頁面信息是否為目標頁面信息;若是,則執行步驟4;若否,則執行步驟5;
步驟4,根據目標頁面信息以及頁面數據記錄閾值,計算數據記錄總數量,本方法結束;
步驟5,根據頁面信息的頁面特征,對預設起始頁碼或預設終止頁碼進行更新處理;而后跳轉執行步驟1。
根據本發明的另一方面,提供了一種數據記錄總數量獲取裝置,包括:
確定模塊,用于根據預設起始頁碼和預設終止頁碼,確定待抓取頁碼;
抓取模塊,用于依據待抓取頁碼,抓取待抓取頁碼對應的頁面信息;
判斷模塊,用于根據頁面信息的頁面特征,判斷頁面信息是否為目標頁面信息;
計算模塊,用于若判斷模塊判斷得到頁面信息為目標頁面信息,則根據目標頁面信息以及頁面數據記錄閾值,計算數據記錄總數量;
更新模塊,用于若判斷模塊判斷得到頁面信息不為目標頁面信息,則根據頁面信息的頁面特征,對預設起始頁碼或預設終止頁碼進行更新處理;而后運行確定模塊。
根據本發明的又一方面,提供了一種計算設備,包括:處理器、存儲器、通信接口和通信總線,處理器、存儲器和通信接口通過通信總線完成相互間的通信;
存儲器用于存放至少一可執行指令,可執行指令使處理器執行上述數據記錄總數量獲取方法對應的操作。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于數貿科技(北京)有限公司,未經數貿科技(北京)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201811382085.9/2.html,轉載請聲明來源鉆瓜專利網。
- 數據顯示系統、數據中繼設備、數據中繼方法、數據系統、接收設備和數據讀取方法
- 數據記錄方法、數據記錄裝置、數據記錄媒體、數據重播方法和數據重播裝置
- 數據發送方法、數據發送系統、數據發送裝置以及數據結構
- 數據顯示系統、數據中繼設備、數據中繼方法及數據系統
- 數據嵌入裝置、數據嵌入方法、數據提取裝置及數據提取方法
- 數據管理裝置、數據編輯裝置、數據閱覽裝置、數據管理方法、數據編輯方法以及數據閱覽方法
- 數據發送和數據接收設備、數據發送和數據接收方法
- 數據發送裝置、數據接收裝置、數據收發系統、數據發送方法、數據接收方法和數據收發方法
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置





