[發明專利]網頁解析方法、裝置、存儲介質、處理器和設備有效
| 申請號: | 201710758003.5 | 申請日: | 2017-08-29 |
| 公開(公告)號: | CN110020236B | 公開(公告)日: | 2021-11-30 |
| 發明(設計)人: | 袁園 | 申請(專利權)人: | 北京國雙科技有限公司 |
| 主分類號: | G06F16/955 | 分類號: | G06F16/955 |
| 代理公司: | 北京集佳知識產權代理有限公司 11227 | 代理人: | 王寶筠 |
| 地址: | 100080 北京市海淀區*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 網頁 解析 方法 裝置 存儲 介質 處理器 設備 | ||
本發明公開了網頁解析方法、裝置、存儲介質、處理器和設備,該網頁解析方法包括:獲取網頁解析請求,其中所述網頁解析請求中攜帶有待解析網頁的統一資源定位器URL以及解析所述待解析網頁時所在的業務場景;從預先配置好的各模版中查找同時與所述業務場景和所述URL相匹配的模版,其中所述模版的模版內容包括解析規則,且不同模版具有不同的解析規則;利用查找到的模版中的解析規則對所述待解析網頁進行解析,得到解析結果。本發明不需要重新啟動線上程序即可完成解析規則的配置,因而提高了工作效率。
技術領域
本發明涉及計算機技術領域,更具體地說,涉及一種網頁解析方法、裝置、存儲介質、處理器和設備。
背景技術
網頁解析是指從網頁源代碼中分析提取出真正想要的信息。在搜索引擎開發中網頁解析技術是非常重要的一環。
不同網站、不同版面的各個網頁通常對應著不同的解析規則。要實現不同網站、不同版面的各個網頁在同一平臺上解析,目前采取的網頁解析方法是:在對每一個網頁進行解析時,首先要完成對該網頁所對應的解析規則的配置,然后才能利用該解析規則對該網頁進行解析,對該網頁解析完成后再開始對下一個網頁進行解析。其中,每配置一個新的解析規則時,都要先寫入這一新的配置規則,然后重新啟動線上程序才能讓新寫入的這一解析規則生效。
但是,由于每次都要重新啟動線上程序才能完成新的解析規則的配置,而當需要新配置的解析規則個數較多時,一次次的重啟線上程序必然會影響工作效率。
發明內容
鑒于上述問題,提出了本發明以便提供一種克服上述問題或者至少部分地解決上述問題的網頁解析方法、裝置、存儲介質、處理器和設備,方案如下:
一種網頁解析方法,包括:
獲取網頁解析請求,其中所述網頁解析請求中攜帶有待解析網頁的統一資源定位器URL以及解析所述待解析網頁時所在的業務場景;
從預先配置好的各模版中查找同時與所述業務場景和所述URL相匹配的模版,其中所述模版的模版內容包括解析規則,且不同模版具有不同的解析規則;
利用查找到的模版中的解析規則對所述待解析網頁進行解析,得到解析結果。
可選的,在從預先配置好的各模版中查找同時與所述業務場景和所述URL相匹配的模版之前,所述網頁解析方法還包括:預先將各模版以預設存儲格式統一配置在數據庫中,其中,所述數據庫中各模版的存儲格式采用支持嵌套結構的列式存儲格式,其存儲列分為域名、業務場景和模版對象,所述模版對象具體包括模版的URL正則匹配規則和模版內容。
其中,所述從預先配置好的各模版中查找同時與所述業務場景和所述URL相匹配的模版,包括:
以所述URL中的域名作為關鍵詞,對所述數據庫中的模版進行檢索,從中篩選出所述URL中的域名所對應的模版;
以所述業務場景作為關鍵詞,對篩選出的所述URL中的域名所對應的模版進行二次檢索,從中篩選出所述業務場景所對應的模版;
將所述URL與篩選出的所述業務場景所對應的模版的URL正則匹配規則進行匹配,查找出匹配成功的模版。
可選的,所述預先將各模版以預設存儲格式統一配置在數據庫中之后,所述網頁解析方法還包括:
預先在本地創建一個緩存池,同時在后端開啟一個后臺線程;所述后臺線程用于周期性的將所述數據庫中的模版更新到所述緩存池中。
可選的,所述模版內容還包括調用指令;
對應的,所述利用查找到的模版中的解析規則對所述待解析網頁進行解析,得到解析結果后,所述網頁解析方法還包括:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京國雙科技有限公司,未經北京國雙科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710758003.5/2.html,轉載請聲明來源鉆瓜專利網。





