[發明專利]一種面向開源信息采集的資源更新時間預測方法及系統有效
| 申請號: | 201910371392.5 | 申請日: | 2019-05-06 |
| 公開(公告)號: | CN110069692B | 公開(公告)日: | 2021-04-20 |
| 發明(設計)人: | 姚晗;晏裕生;孫孟陽;董文軒;江洋 | 申請(專利權)人: | 中國船舶工業綜合技術經濟研究院 |
| 主分類號: | G06F16/951 | 分類號: | G06F16/951;G06K9/62;G06Q10/04 |
| 代理公司: | 北京高沃律師事務所 11569 | 代理人: | 程華 |
| 地址: | 100081 *** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 面向 信息 采集 資源 更新 時間 預測 方法 系統 | ||
本發明公開了一種面向開源信息采集的資源更新時間預測方法及系統。所述方法通過CART決策樹算法建立網站資源更新時間和資源更新數量的CART決策樹模型,并采用十折交叉法確定所述CART決策樹模型的準確性,如果模型準確性滿足要求,就可以采用建立的CART決策樹模型預測網站未來的更新時間及資源更新數量,從而可以根據預測更新時間自動設置爬蟲系統的資源采集時間,定時從目標網站采集所需要的信息資源,有效解決了數據采集過程中難以設置采集頻率的問題,同時也避免了人工設置采集時間過于密集導致的對目標網站多次頻繁采集的問題,節省了數據采集的計算資源。
技術領域
本發明涉及網絡信息采集技術領域,特別是涉及一種面向開源信息采集的資源更新時間預測方法及系統。
背景技術
開源信息采集是指通過網絡爬蟲等技術,自動從目標網站中獲取所需要的信息資源的一種方法。當前開源信息采集業務主要由人工根據經驗設置采集時間,由于目標網站的更新時間存在不確定性,為了保證信息采集的時效性,采集時間一般都設置的比較密集,從而消耗甚至浪費大量的計算資源。因此,如何根據網站的歷史數據預測未來的資源更新時間,從而保證在設置采集時間時既保證采集數據時效性,同時又降低采集計算資源消耗,是本領域急需解決的問題。
發明內容
本發明的目的是提供一種面向開源信息采集的資源更新時間預測方法及系統,以解決人工設置信息采集時間消耗資源過大的問題。
為實現上述目的,本發明提供了如下方案:
一種面向開源信息采集的資源更新時間預測方法,所述方法包括:
獲取目標網站的歷史數據;所述歷史數據包括多個歷史更新時間以及多個所述歷史更新時間對應的歷史資源更新數量;
采用十折交叉法將所述歷史數據劃分為訓練集和測試集;
根據所述訓練集建立CART決策樹模型;
根據所述測試集確定所述CART決策樹模型的準確性;
判斷所述準確性是否滿足要求,獲得第一判斷結果;
若所述第一判斷結果為所述準確性滿足要求,采用所述CART決策樹模型預測所述目標網站的更新時間以及所述更新時間對應的資源更新數量;
若所述第一判斷結果所述準確性不滿足要求,返回所述采用十折交叉法將所述歷史數據劃分為訓練集和測試集的步驟。
可選的,所述根據所述訓練集建立CART決策樹模型,具體包括:
統計所述訓練集中所有歷史更新時間作為定義域;所述訓練集中包括多個歷史更新時間以及多個所述歷史更新時間對應的歷史資源更新數量;
對所述定義域進行遞歸劃分,將所述定義域劃分為M個集合R1,R2,...,RM;
根據所述M個集合R1,R2,...,RM建立CART決策樹模型其中xi為更新時間;Rm表示所述M個集合中的第m個集合;1≤m≤M;Nm表示第m個集合Rm中的元素個數;yi為更新時間xi對應的歷史資源更新數量;f(xi)為更新時間xi對應的預測資源更新數量。
可選的,所述對所述定義域進行遞歸劃分,將所述定義域劃分為M個集合R1,R2,...,RM,具體包括:
確定所述定義域的最優切分變量與最優切分點;
采用所述最優切分點將所述定義域劃分為兩個子區域;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中國船舶工業綜合技術經濟研究院,未經中國船舶工業綜合技術經濟研究院許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910371392.5/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:用于處理點擊行為數據的方法和裝置
- 下一篇:用于確定目標頁面的方法和裝置
- 信息記錄介質、信息記錄方法、信息記錄設備、信息再現方法和信息再現設備
- 信息記錄裝置、信息記錄方法、信息記錄介質、信息復制裝置和信息復制方法
- 信息記錄裝置、信息再現裝置、信息記錄方法、信息再現方法、信息記錄程序、信息再現程序、以及信息記錄介質
- 信息記錄裝置、信息再現裝置、信息記錄方法、信息再現方法、信息記錄程序、信息再現程序、以及信息記錄介質
- 信息記錄設備、信息重放設備、信息記錄方法、信息重放方法、以及信息記錄介質
- 信息存儲介質、信息記錄方法、信息重放方法、信息記錄設備、以及信息重放設備
- 信息存儲介質、信息記錄方法、信息回放方法、信息記錄設備和信息回放設備
- 信息記錄介質、信息記錄方法、信息記錄裝置、信息再現方法和信息再現裝置
- 信息終端,信息終端的信息呈現方法和信息呈現程序
- 信息創建、信息發送方法及信息創建、信息發送裝置





