[發明專利]信息采集的方法和裝置有效
| 申請號: | 201710325105.8 | 申請日: | 2017-05-10 |
| 公開(公告)號: | CN108874810B | 公開(公告)日: | 2021-01-26 |
| 發明(設計)人: | 李杰;安偉佳;許斌 | 申請(專利權)人: | 北京京東尚科信息技術有限公司;北京京東世紀貿易有限公司 |
| 主分類號: | G06F16/955 | 分類號: | G06F16/955;G06F16/953;G06F16/958 |
| 代理公司: | 中原信達知識產權代理有限責任公司 11219 | 代理人: | 張一軍;姜勁 |
| 地址: | 100195 北京市海淀區杏石口路6*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 信息 采集 方法 裝置 | ||
本發明提供一種信息采集的方法和裝置。一種信息采集的方法,包括:接收從處理中心分發的信息采集任務;根據信息采集任務啟動一個或多個瀏覽器進程,并且在啟動一個或多個瀏覽器進程的過程中加載模擬行為模板;從處理中心接收待采集信息的目標網頁的統一資源定位符URL;根據所接收的URL,對目標網頁進行渲染,并且獲得目標網頁的頁面渲染狀態;根據URL的類型,確定是否需要在目標網頁上配置所加載的模擬行為模板;響應于確定需要配置模擬行為模板,在目標網頁上觸發模擬行為模板中所定義的功能;以及對目標網頁進行解析并且將解析結果回傳到處理中心的云存儲。
技術領域
本發明涉及計算機領域,特別涉及一種信息采集的方法和裝置。
背景技術
網絡信息采集,是利用網絡機器人(俗稱網絡爬蟲),在互聯網上,按照一種提前約定的規范、協議,自動搜集互聯網上的信息的一套程序。可以采用不同的采集算法,根據不同的場景有深度優先算法,廣度優先算法或者兩者結合使用,拓撲出整個Internet網站的信息。
目前隨著服務器硬件、網絡帶寬等資源優化提升,各個站點前端技術的豐富化,網頁的加載量消耗帶寬、流量增加,多數都是采用了展示信息的延時異步加載、懶加載等方式,效果是為了在不影響頁面的響應速度的前提下,豐富頁面內容,提升用戶的體驗度。
在實現本發明過程中,發明人發現現有技術中至少存在如下問題:
當下主流網站的網頁結構復雜,許多重要的信息例如價格、評論等,均是異步請求,延時加載渲染。常規的信息采集方式不能獲取這些內容,做不到所見即所得。此外,常規的信息采集方式定制化差,沒有人工操作行為的加入,很容易被目標網頁的各種機器學習算法識別為非人工操作,從而被目標網頁禁止訪問或需要增加登錄次數,導致信息采集的失敗。
發明內容
有鑒于此,本發明實施例提供了一種信息采集方法和裝置。
本發明的實施方案能夠在常規無核瀏覽器信息采集(網絡爬蟲)的基礎上,靈活地增加人工行為的模擬操作,例如點擊、登錄、翻頁、刷新、下拉滾動、全屏操作、鼠標滑過某個元素、滾動條下拉、鼠標移動停留等等,從而滿足目標網頁中所設置的各種類型的埋點的要求,能夠加載更多需要點擊才能展現的信息,并且在多次發起訪問請求的時候,可以真正做到所見即所得,降低被禁止訪問的風險。
為實現上述目的,根據本發明實施例的一個方面,提供了一種信息采集的方法,其特征在于,包括:接收從處理中心分發的信息采集任務;根據所述信息采集任務啟動一個或多個瀏覽器進程,并且在啟動所述一個或多個瀏覽器進程的過程中加載模擬行為模板;從所述處理中心接收待采集信息的目標網頁的統一資源定位符URL;根據所接收的URL,對所述目標網頁進行渲染,并且獲得所述目標網頁的頁面渲染狀態;根據所接收的URL的類型,確定是否需要在所述目標網頁上配置所加載的模擬行為模板;響應于確定需要配置所述模擬行為模板,在所述目標網頁上觸發所述模擬行為模板中所定義的功能;以及對所述目標網頁進行解析并且將解析結果回傳到所述處理中心。
可選地,所述模擬行為模板包括下述中的一個或多個:頁面下拉、滾動效果模板;點擊、登錄效果模板、以及選擇效果模板。
可選地,所述模擬行為模板是由信息采集裝置預定義的模板。
可選地,所述模擬行為模板是用戶自定義的模板。
可選地,通過采用插件可插拔式方式將所述模擬行為模板以插件的形式注入到所述一個或多個瀏覽器進程,來加載所述模擬行為模板。
可選地,對所述目標網頁進行解析并且將解析結果回傳到所述處理中心包括:對所述目標網頁進行模板適配,以與使得所述目標網頁與信息采集裝置定義的模板相匹配;根據所述目標網頁的不同URL類型,選擇對所述目標網頁進行解析所使用的規則,并使用所選擇的規則對所述目標網頁進行解析;以及,基于所述規則生成解析結果,并且將所述解析結果回傳到所述處理中心。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京京東尚科信息技術有限公司;北京京東世紀貿易有限公司,未經北京京東尚科信息技術有限公司;北京京東世紀貿易有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710325105.8/2.html,轉載請聲明來源鉆瓜專利網。
- 信息記錄介質、信息記錄方法、信息記錄設備、信息再現方法和信息再現設備
- 信息記錄裝置、信息記錄方法、信息記錄介質、信息復制裝置和信息復制方法
- 信息記錄裝置、信息再現裝置、信息記錄方法、信息再現方法、信息記錄程序、信息再現程序、以及信息記錄介質
- 信息記錄裝置、信息再現裝置、信息記錄方法、信息再現方法、信息記錄程序、信息再現程序、以及信息記錄介質
- 信息記錄設備、信息重放設備、信息記錄方法、信息重放方法、以及信息記錄介質
- 信息存儲介質、信息記錄方法、信息重放方法、信息記錄設備、以及信息重放設備
- 信息存儲介質、信息記錄方法、信息回放方法、信息記錄設備和信息回放設備
- 信息記錄介質、信息記錄方法、信息記錄裝置、信息再現方法和信息再現裝置
- 信息終端,信息終端的信息呈現方法和信息呈現程序
- 信息創建、信息發送方法及信息創建、信息發送裝置





