[發(fā)明專利]基于科技服務信息智能抓取系統(tǒng)數據收集方法有效
| 申請?zhí)枺?/td> | 201710247626.6 | 申請日: | 2017-04-17 |
| 公開(公告)號: | CN107025296B | 公開(公告)日: | 2018-11-06 |
| 發(fā)明(設計)人: | 陳文海;陳勁峰;佘文文;馬曉;柏道菲 | 申請(專利權)人: | 山東辰華科技信息有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 250100 山東省濟南*** | 國省代碼: | 山東;37 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 科技服務 信息 智能 抓取 系統(tǒng) 數據 收集 方法 | ||
本發(fā)明涉及一種基于科技服務信息智能抓取系統(tǒng)數據收集方法,包括以下步驟:①數據抓取:爬蟲的配置,用戶通過客戶端的配置模塊、啟動模塊發(fā)布抓取任務,并設置要抓取的網站及設定相應的規(guī)則;②定時抓取任務:根據用戶發(fā)布的任務動態(tài)加載到定時抓取任務列表中;③下載頁面;④頁面解析:解析隊列中的頁面;⑤待抓取URL;⑥數據處理和存儲:對頁面數據進行解析提取處理,對提取出的二維結構數據進行存儲;本發(fā)明能夠滿足爬蟲通用性要求,適合科技服務系統(tǒng)抓取需求,擴展方便,插件式開發(fā);在具體業(yè)務邏輯上增加解析規(guī)則配置,抓取網頁寬度、深度,抓取線程,數據庫配置或索引配置,就可以開啟智能化抓取采集信息。
技術領域
本發(fā)明涉及一種智能抓取方法,尤其涉及一種基于科技服務信息智能抓取系統(tǒng)數據收集方法。
背景技術
爬蟲,又稱為蜘蛛,它不是昆蟲的名稱,而是人們?yōu)榱诵蜗竺枋鲇嬎銠C程序在網絡不斷通過定制的入口網址去提取網頁的鏈接,并根據這些鏈接再度抓取提取更深的其它未知的鏈接,以此下去,將這樣的程序抓取行為形容成類似爬蟲似的動作,稱之為爬蟲,爬蟲是一種自動獲取網頁內容的程序,是搜索引擎的重要組成部分。
采用人工生成抓取包裝器技術的抓取系統(tǒng)科技信息抽取結果精準,但是要對互聯(lián)網上千個網站進行抓取包裝器的生成和更新維護工作,普通垂直爬蟲無法很好擔負這一工作,只能依賴大量的人力參與。
安全、高效的實時抓取技術;在要求高實時性抓取的時候,需要對抓取網站服務器頻繁的發(fā)起鏈接和下載請求,這將會給對方服務器造成很大的壓力,進而會導致對方采用封禁策略如拒絕訪問等來保證服務器正常工作,這將導致抓取失敗;同時高實時的抓取需求,非常耗費網絡、服務器等硬件資源,導致成本上升。
隨著AJAX技術不斷的普及,以及現在AngularJS這種Single-page application框架的出現,現在js渲染出的頁面越來越多;對于爬蟲來說,這種頁面是比較討厭的:僅僅提取HTML內容,往往無法拿到有效的信息。
發(fā)明內容
為解決上述技術問題,本發(fā)明提供了一種基于科技服務信息智能抓取系統(tǒng)數據收集方法,本發(fā)明通過以下技術方案來實現:基于科技服務信息智能抓取系統(tǒng)數據收集方法,包括以下步驟:
①數據抓取:爬蟲的配置,用戶通過客戶端的配置模塊、啟動模塊發(fā)布抓取任務,并設置要抓取的網站及設定相應的規(guī)則,包括編碼、抓取間隔、超時時間、重試次數等;
②定時抓取任務:根據用戶發(fā)布的任務動態(tài)加載到定時抓取任務列表中;
③下載頁面:根據客戶設置的抓取規(guī)則和抓取流程,進行寬度優(yōu)先抓取算法開始遍歷抓取網頁并將抓取的頁面下載下來,并放置到將要進行頁面解析隊列中等待頁面解析;
④頁面解析:解析隊列中的頁面,利用
⑤待抓取URL:采用鏈接權重算法將解析過程中發(fā)現的新鏈接放置待抓取URL隊列中等待線程的處理;
⑥數據處理和存儲:對頁面數據進行解析提取處理,對提取出的二維結構數據進行存儲。
優(yōu)選地,所述步驟①的配置模塊、啟動模塊位于后臺管理系統(tǒng)中,爬蟲初始入口地址通過指定的爬蟲網址列表文件進行靜態(tài)導入,或者通過將爬蟲入口網址放到數據庫中進行指定。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于山東辰華科技信息有限公司,未經山東辰華科技信息有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業(yè)授權和技術合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710247626.6/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:頭發(fā)護理器具
- 下一篇:繪畫裝置及繪畫方法
- 信息記錄介質、信息記錄方法、信息記錄設備、信息再現方法和信息再現設備
- 信息記錄裝置、信息記錄方法、信息記錄介質、信息復制裝置和信息復制方法
- 信息記錄裝置、信息再現裝置、信息記錄方法、信息再現方法、信息記錄程序、信息再現程序、以及信息記錄介質
- 信息記錄裝置、信息再現裝置、信息記錄方法、信息再現方法、信息記錄程序、信息再現程序、以及信息記錄介質
- 信息記錄設備、信息重放設備、信息記錄方法、信息重放方法、以及信息記錄介質
- 信息存儲介質、信息記錄方法、信息重放方法、信息記錄設備、以及信息重放設備
- 信息存儲介質、信息記錄方法、信息回放方法、信息記錄設備和信息回放設備
- 信息記錄介質、信息記錄方法、信息記錄裝置、信息再現方法和信息再現裝置
- 信息終端,信息終端的信息呈現方法和信息呈現程序
- 信息創(chuàng)建、信息發(fā)送方法及信息創(chuàng)建、信息發(fā)送裝置





