[發(fā)明專利]網(wǎng)頁解析方法、裝置、存儲介質(zhì)、處理器和設(shè)備有效
| 申請?zhí)枺?/td> | 201710758003.5 | 申請日: | 2017-08-29 |
| 公開(公告)號: | CN110020236B | 公開(公告)日: | 2021-11-30 |
| 發(fā)明(設(shè)計)人: | 袁園 | 申請(專利權(quán))人: | 北京國雙科技有限公司 |
| 主分類號: | G06F16/955 | 分類號: | G06F16/955 |
| 代理公司: | 北京集佳知識產(chǎn)權(quán)代理有限公司 11227 | 代理人: | 王寶筠 |
| 地址: | 100080 北京市海淀區(qū)*** | 國省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 網(wǎng)頁 解析 方法 裝置 存儲 介質(zhì) 處理器 設(shè)備 | ||
1.一種網(wǎng)頁解析方法,其特征在于,包括:
獲取網(wǎng)頁解析請求,其中所述網(wǎng)頁解析請求中攜帶有待解析網(wǎng)頁的統(tǒng)一資源定位器URL以及解析所述待解析網(wǎng)頁時所在的業(yè)務(wù)場景;
從預(yù)先配置好的各模版中查找同時與所述業(yè)務(wù)場景和所述URL相匹配的模版,其中所述模版的模版內(nèi)容包括解析規(guī)則,且不同模版具有不同的解析規(guī)則;基于預(yù)先配置好的各解析規(guī)則,在不同網(wǎng)頁在同一平臺上解析時,對于其中每一個網(wǎng)頁,都直接從預(yù)先配置好的各解析規(guī)則中去調(diào)取出與之匹配的解析規(guī)則來對本網(wǎng)頁進行解析,而無需重新啟動線上程序去完成與之匹配的解析規(guī)則的配置;
利用查找到的模版中的解析規(guī)則對所述待解析網(wǎng)頁進行解析,得到解析結(jié)果;
其中,在從預(yù)先配置好的各模版中查找同時與所述業(yè)務(wù)場景和所述URL相匹配的模版之前,所述網(wǎng)頁解析方法還包括:預(yù)先將各模版以預(yù)設(shè)存儲格式統(tǒng)一配置在數(shù)據(jù)庫中,其中,所述數(shù)據(jù)庫中各模版的存儲格式采用支持嵌套結(jié)構(gòu)的列式存儲格式,其存儲列分為域名、業(yè)務(wù)場景和模版對象,所述模版對象具體包括模版的URL正則匹配規(guī)則和模版內(nèi)容;
其中,所述從預(yù)先配置好的各模版中查找同時與所述業(yè)務(wù)場景和所述URL相匹配的模版,包括:
以所述URL中的域名作為關(guān)鍵詞,對所述數(shù)據(jù)庫中的模版進行檢索,從中篩選出所述URL中的域名所對應(yīng)的模版;
以所述業(yè)務(wù)場景作為關(guān)鍵詞,對篩選出的所述URL中的域名所對應(yīng)的模版進行二次檢索,從中篩選出所述業(yè)務(wù)場景所對應(yīng)的模版;
將所述URL與篩選出的所述業(yè)務(wù)場景所對應(yīng)的模版的URL正則匹配規(guī)則進行匹配,查找出匹配成功的模版。
2.根據(jù)權(quán)利要求1所述的網(wǎng)頁解析方法,其特征在于,所述預(yù)先將各模版以預(yù)設(shè)存儲格式統(tǒng)一配置在數(shù)據(jù)庫中之后,所述網(wǎng)頁解析方法還包括:
預(yù)先在本地創(chuàng)建一個緩存池,同時在后端開啟一個后臺線程;所述后臺線程用于周期性的將所述數(shù)據(jù)庫中的模版更新到所述緩存池中。
3.根據(jù)權(quán)利要求1-2中任一項所述的網(wǎng)頁解析方法,其特征在于,所述模版內(nèi)容還包括調(diào)用指令;
對應(yīng)的,所述利用查找到的模版中的解析規(guī)則對所述待解析網(wǎng)頁進行解析,得到解析結(jié)果后,所述網(wǎng)頁解析方法還包括:
根據(jù)查找到的模版中的調(diào)用指令調(diào)用預(yù)先配置好的公共解析組件,利用所述公共解析組件對所述解析結(jié)果中需要二次解析的字段進行處理,得到二次解析結(jié)果;
其中,所述公共解析組件是指解析器,不同的公共解析組件具有不同的解析能力。
4.一種網(wǎng)頁解析裝置,其特征在于,包括:
預(yù)處理單元,用于預(yù)先配置好各模版,其中所述模版的模版內(nèi)容包括解析規(guī)則,且不同模版具有不同的解析規(guī)則;基于預(yù)先配置好的各解析規(guī)則,在不同網(wǎng)頁在同一平臺上解析時,對于其中每一個網(wǎng)頁,都直接從預(yù)先配置好的各解析規(guī)則中去調(diào)取出與之匹配的解析規(guī)則來對本網(wǎng)頁進行解析,而無需重新啟動線上程序去完成與之匹配的解析規(guī)則的配置;
獲取單元,用于獲取網(wǎng)頁解析請求,其中所述網(wǎng)頁解析請求中攜帶有待解析網(wǎng)頁的URL以及解析所述待解析網(wǎng)頁時所在的業(yè)務(wù)場景;
查找單元,用于從預(yù)先配置好的各模版中查找同時與所述業(yè)務(wù)場景和所述URL相匹配的模版;
第一解析單元,用于利用所述查找單元查找到的模版中的解析規(guī)則對所述待解析網(wǎng)頁進行解析,得到解析結(jié)果;
其中,在從預(yù)先配置好的各模版中查找同時與所述業(yè)務(wù)場景和所述URL相匹配的模版之前,所述網(wǎng)頁解析裝置還包括:預(yù)先將各模版以預(yù)設(shè)存儲格式統(tǒng)一配置在數(shù)據(jù)庫中,其中,所述數(shù)據(jù)庫中各模版的存儲格式采用支持嵌套結(jié)構(gòu)的列式存儲格式,其存儲列分為域名、業(yè)務(wù)場景和模版對象,所述模版對象具體包括模版的URL正則匹配規(guī)則和模版內(nèi)容;
其中,所述從預(yù)先配置好的各模版中查找同時與所述業(yè)務(wù)場景和所述URL相匹配的模版,包括:
以所述URL中的域名作為關(guān)鍵詞,對所述數(shù)據(jù)庫中的模版進行檢索,從中篩選出所述URL中的域名所對應(yīng)的模版;
以所述業(yè)務(wù)場景作為關(guān)鍵詞,對篩選出的所述URL中的域名所對應(yīng)的模版進行二次檢索,從中篩選出所述業(yè)務(wù)場景所對應(yīng)的模版;
將所述URL與篩選出的所述業(yè)務(wù)場景所對應(yīng)的模版的URL正則匹配規(guī)則進行匹配,查找出匹配成功的模版。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于北京國雙科技有限公司,未經(jīng)北京國雙科技有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710758003.5/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。





