[發(fā)明專利]信息抓取方法和裝置有效
| 申請?zhí)枺?/td> | 201710291162.9 | 申請日: | 2017-04-28 |
| 公開(公告)號: | CN108804444B | 公開(公告)日: | 2022-03-04 |
| 發(fā)明(設計)人: | 高毅 | 申請(專利權)人: | 北京京東尚科信息技術有限公司;北京京東世紀貿易有限公司 |
| 主分類號: | G06F16/9535 | 分類號: | G06F16/9535;G06F16/9536;G06F16/958 |
| 代理公司: | 北京英賽嘉華知識產權代理有限責任公司 11204 | 代理人: | 王達佐;馬曉亞 |
| 地址: | 100080 北京市海淀區(qū)杏石口路6*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 信息 抓取 方法 裝置 | ||
本申請公開了信息抓取方法和裝置。該方法的一具體實施方式包括:獲取配置文件,其中,該配置文件包括抓取目標信息和抓取參數;根據配置文件,抓取得到第一抓取結果;基于該抓取目標信息和/或該第一抓取結果,更新該配置文件中的抓取參數;根據更新后的配置文件,抓取得到第二抓取結果。該實施方式提高了信息抓取的效率。
技術領域
本申請涉及計算機技術領域,具體涉及互聯(lián)網技術領域,尤其涉及信息抓取方法和裝置。
背景技術
隨著互聯(lián)網的發(fā)展,產生了日益豐富的網絡資源。信息抓取是獲得網絡資源的基礎。通常,可以利用網絡爬蟲(又被稱為網頁蜘蛛或網絡機器人)從一個或若干初始網頁開始,按照一定的規(guī)則,自動抓取萬維網中的信息。
然而,現(xiàn)有的信息抓取方式通常是配置固定的抓取參數,不能調整抓取參數,抓取到的信息可能存在大量的無用信息,從而導致抓取效率較低。
發(fā)明內容
本申請的目的在于提出一種改進的信息抓取方法和裝置,來解決以上背景技術部分提到的技術問題。
第一方面,本申請實施例提供了一種信息抓取方法,上述方法包括:獲取配置文件,其中,上述配置文件包括抓取目標信息和抓取參數;根據上述配置文件,抓取得到第一抓取結果;基于上述抓取目標信息和/或上述第一抓取結果,更新上述配置文件中的抓取參數;根據更新后的配置文件,抓取得到第二抓取結果。
第二方面,本申請實施例提供了一種信息抓取裝置,上述裝置包括:獲取單元,用于獲取配置文件,其中,上述配置文件包括抓取目標信息和抓取參數;第一抓取單元,用于根據上述配置文件,抓取得到第一抓取結果;更新單元,用于基于上述抓取目標信息和/或上述第一抓取結果,更新上述配置文件中的抓取參數;第二抓取單元,用于根據更新后的配置文件,抓取得到第二抓取結果。
第三方面,本申請實施例提供了一種服務器,上述服務器包括:一個或多個處理器;存儲裝置,用于存儲一個或多個程序,當上述一個或多個程序被上述一個或多個處理器執(zhí)行,使得上述一個或多個處理器實現(xiàn)如第一方面的方法。
第四方面,本申請實施例提供了一種計算機可讀存儲介質,其上存儲有計算機程序,該程序被處理器執(zhí)行時實現(xiàn)如第一方面的方法。
本申請實施例提供的信息抓取方法和裝置,通過在信息抓取的過程中,根據抓取結果和/或抓取目標信息,更新配置文件中的抓取參數,實現(xiàn)了在抓取過程中調整抓取參數,使得抓取到的信息更符合抓取目標,提高了信息抓取的效率。
附圖說明
通過閱讀參照以下附圖所作的對非限制性實施例所作的詳細描述,本申請的其它特征、目的和優(yōu)點將會變得更明顯:
圖1是本申請可以應用于其中的示例性系統(tǒng)架構圖;
圖2是根據本申請的信息抓取方法的一個實施例的流程圖;
圖3是根據本申請的信息抓取方法的一個應用場景的示意圖;
圖4是根據本申請的信息抓取方法的又一個實施例的流程圖;
圖5是根據本申請的信息抓取方法的又一個實施例的流程圖;
圖6是根據本申請的信息抓取裝置的一個實施例的結構示意圖;
圖7是適于用來實現(xiàn)本申請實施例的服務器的計算機系統(tǒng)的結構示意圖。
具體實施方式
下面結合附圖和實施例對本申請作進一步的詳細說明。可以理解的是,此處所描述的具體實施例僅僅用于解釋相關發(fā)明,而非對該發(fā)明的限定。另外還需要說明的是,為了便于描述,附圖中僅示出了與有關發(fā)明相關的部分。
需要說明的是,在不沖突的情況下,本申請中的實施例及實施例中的特征可以相互組合。下面將參考附圖并結合實施例來詳細說明本申請。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京京東尚科信息技術有限公司;北京京東世紀貿易有限公司,未經北京京東尚科信息技術有限公司;北京京東世紀貿易有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業(yè)授權和技術合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710291162.9/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種基于多特征融合的司法類案搜索方法
- 下一篇:熱力圖生成方法和裝置
- 信息記錄介質、信息記錄方法、信息記錄設備、信息再現(xiàn)方法和信息再現(xiàn)設備
- 信息記錄裝置、信息記錄方法、信息記錄介質、信息復制裝置和信息復制方法
- 信息記錄裝置、信息再現(xiàn)裝置、信息記錄方法、信息再現(xiàn)方法、信息記錄程序、信息再現(xiàn)程序、以及信息記錄介質
- 信息記錄裝置、信息再現(xiàn)裝置、信息記錄方法、信息再現(xiàn)方法、信息記錄程序、信息再現(xiàn)程序、以及信息記錄介質
- 信息記錄設備、信息重放設備、信息記錄方法、信息重放方法、以及信息記錄介質
- 信息存儲介質、信息記錄方法、信息重放方法、信息記錄設備、以及信息重放設備
- 信息存儲介質、信息記錄方法、信息回放方法、信息記錄設備和信息回放設備
- 信息記錄介質、信息記錄方法、信息記錄裝置、信息再現(xiàn)方法和信息再現(xiàn)裝置
- 信息終端,信息終端的信息呈現(xiàn)方法和信息呈現(xiàn)程序
- 信息創(chuàng)建、信息發(fā)送方法及信息創(chuàng)建、信息發(fā)送裝置





