[發(fā)明專利]HTML數(shù)據(jù)解析方法、裝置、計(jì)算機(jī)設(shè)備和存儲(chǔ)介質(zhì)在審
| 申請(qǐng)?zhí)枺?/td> | 202010952980.0 | 申請(qǐng)日: | 2020-09-11 |
| 公開(kāi)(公告)號(hào): | CN112148298A | 公開(kāi)(公告)日: | 2020-12-29 |
| 發(fā)明(設(shè)計(jì))人: | 徐靜;范淵 | 申請(qǐng)(專利權(quán))人: | 杭州安恒信息技術(shù)股份有限公司 |
| 主分類(lèi)號(hào): | G06F8/41 | 分類(lèi)號(hào): | G06F8/41;G06F16/958 |
| 代理公司: | 杭州華進(jìn)聯(lián)浙知識(shí)產(chǎn)權(quán)代理有限公司 33250 | 代理人: | 陳涵 |
| 地址: | 310051 浙江省*** | 國(guó)省代碼: | 浙江;33 |
| 權(quán)利要求書(shū): | 查看更多 | 說(shuō)明書(shū): | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | html 數(shù)據(jù) 解析 方法 裝置 計(jì)算機(jī) 設(shè)備 存儲(chǔ) 介質(zhì) | ||
本申請(qǐng)涉及一種HTML數(shù)據(jù)解析方法、裝置、計(jì)算機(jī)設(shè)備和存儲(chǔ)介質(zhì),該方法包括:獲取HTML數(shù)據(jù),并對(duì)所述HTML數(shù)據(jù)進(jìn)行標(biāo)記解析得到標(biāo)記名稱;基于所述標(biāo)記名稱與預(yù)設(shè)重寫(xiě)標(biāo)記進(jìn)行匹配,得到匹配信息;根據(jù)所述匹配信息以及預(yù)設(shè)雙解析規(guī)則,選取對(duì)應(yīng)解析子規(guī)則;所述預(yù)設(shè)雙解析規(guī)則包括至少兩種所述解析子規(guī)則;根據(jù)所述解析子規(guī)則對(duì)所述標(biāo)記名稱對(duì)應(yīng)的HTML數(shù)據(jù)段進(jìn)行解析;重復(fù)以上步驟對(duì)所述HTML數(shù)據(jù)中其他標(biāo)記名稱對(duì)應(yīng)的HTML數(shù)據(jù)段進(jìn)行解析。通過(guò)本申請(qǐng),使HTML數(shù)據(jù)解析方式更加靈活,提高了解析本身的速度,降低了交互帶來(lái)的性能負(fù)擔(dān),減短了用戶對(duì)網(wǎng)站系統(tǒng)訪問(wèn)的響應(yīng)時(shí)間。
技術(shù)領(lǐng)域
本申請(qǐng)涉及頁(yè)面處理技術(shù)領(lǐng)域,特別是涉及一種HTML數(shù)據(jù)解析方法、裝置、計(jì)算機(jī)設(shè)備和存儲(chǔ)介質(zhì)。
背景技術(shù)
隨著互聯(lián)網(wǎng)及其應(yīng)用的快速發(fā)展,絕大多數(shù)企業(yè)都建立自己的網(wǎng)站,增強(qiáng)對(duì)外聯(lián)絡(luò),加速業(yè)務(wù)流程,客戶對(duì)網(wǎng)站系統(tǒng)訪問(wèn)的響應(yīng)時(shí)間、網(wǎng)站內(nèi)容以及所提供服務(wù)的可靠性、即時(shí)性等要求也越來(lái)越高。
通常情況下,標(biāo)準(zhǔn)的HTML樹(shù)解析器需要檢索整個(gè)文件以生成完整的DOM樹(shù)。瀏覽器很少需要處理大小超過(guò)1Mb的HTML頁(yè)面,并且平均頁(yè)面加載時(shí)間最多約為3s。對(duì)于瀏覽器的HTML解析器來(lái)說(shuō),大約3Mbps的加載量是可以接受的。然而,在某些系統(tǒng)中,每個(gè)CPU可能擁有數(shù)百兆的流量,交互負(fù)擔(dān)大、降低了系統(tǒng)的響應(yīng)時(shí)間,使得以單臺(tái)服務(wù)器來(lái)支撐整個(gè)網(wǎng)站的系統(tǒng)無(wú)法滿足客戶需求。
發(fā)明內(nèi)容
本申請(qǐng)實(shí)施例提供了一種HTML數(shù)據(jù)解析方法、裝置、計(jì)算機(jī)設(shè)備和存儲(chǔ)介質(zhì),以至少解決相關(guān)技術(shù)中HTML數(shù)據(jù)解析效率低的問(wèn)題。
第一方面,本申請(qǐng)實(shí)施例提供了一種HTML數(shù)據(jù)解析方法,包括:
獲取HTML數(shù)據(jù),并對(duì)所述HTML數(shù)據(jù)進(jìn)行標(biāo)記解析得到標(biāo)記名稱;
基于所述標(biāo)記名稱與預(yù)設(shè)重寫(xiě)標(biāo)記進(jìn)行匹配,得到匹配信息;
根據(jù)所述匹配信息以及預(yù)設(shè)雙解析規(guī)則,選取對(duì)應(yīng)解析子規(guī)則;所述預(yù)設(shè)雙解析規(guī)則包括至少兩種所述解析子規(guī)則;
根據(jù)所述解析子規(guī)則對(duì)所述標(biāo)記名稱對(duì)應(yīng)的HTML數(shù)據(jù)段進(jìn)行解析;
重復(fù)以上步驟對(duì)所述HTML數(shù)據(jù)中其他標(biāo)記名稱對(duì)應(yīng)的HTML數(shù)據(jù)段進(jìn)行解析。
在其中一些實(shí)施例中,所述HTML數(shù)據(jù)為HTML字符串或HTML字節(jié)流。
在其中一些實(shí)施例中,基于所述標(biāo)記名稱與預(yù)設(shè)重寫(xiě)標(biāo)記進(jìn)行匹配,得到匹配信息,包括:
根據(jù)所述標(biāo)記名稱與預(yù)設(shè)重寫(xiě)標(biāo)記判定是否需要標(biāo)記附加信息;
當(dāng)需要標(biāo)記附加信息時(shí),基于所述標(biāo)記名稱獲取對(duì)應(yīng)的標(biāo)記附加信息;
根據(jù)所述標(biāo)記名稱和對(duì)應(yīng)的標(biāo)記附加信息,與預(yù)設(shè)重寫(xiě)標(biāo)記進(jìn)行匹配,得到匹配信息。
在其中一些實(shí)施例中,所述標(biāo)記附加信息包括對(duì)應(yīng)的標(biāo)記名稱的屬性。
在其中一些實(shí)施例中,根據(jù)所述匹配信息以及預(yù)設(shè)雙解析規(guī)則,選取對(duì)應(yīng)解析子規(guī)則,包括:
當(dāng)所述標(biāo)記名稱與預(yù)設(shè)重寫(xiě)標(biāo)記匹配時(shí),選取對(duì)應(yīng)解析子規(guī)則為:跳過(guò)對(duì)所述標(biāo)記名稱對(duì)應(yīng)的HTML數(shù)據(jù)段的解析;所述標(biāo)記名稱包括開(kāi)始標(biāo)記和結(jié)束標(biāo)記,所述標(biāo)記名稱對(duì)應(yīng)的HTML數(shù)據(jù)段位于所述開(kāi)始標(biāo)記和所述結(jié)束標(biāo)記之間。
在其中一些實(shí)施例中,根據(jù)所述匹配信息以及預(yù)設(shè)雙解析規(guī)則,選取對(duì)應(yīng)解析子規(guī)則,包括:
當(dāng)所述標(biāo)記名稱與預(yù)設(shè)重寫(xiě)標(biāo)記不匹配時(shí),選取對(duì)應(yīng)解析子規(guī)則為:解析所述標(biāo)記名稱對(duì)應(yīng)的HTML數(shù)據(jù)段直至所述結(jié)束標(biāo)記。
在其中一些實(shí)施例中,將所述標(biāo)記名稱與預(yù)設(shè)重寫(xiě)標(biāo)記進(jìn)行匹配,得到匹配信息之前,還包括:
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于杭州安恒信息技術(shù)股份有限公司,未經(jīng)杭州安恒信息技術(shù)股份有限公司許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買(mǎi)此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010952980.0/2.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專利網(wǎng)。
- 一種超文本標(biāo)記語(yǔ)言文檔的版本管理方法及系統(tǒng)
- 一種基于HTML的版本管理方法及系統(tǒng)
- 一種HTML文件轉(zhuǎn)換封裝成SMIL文件的方法及系統(tǒng)
- 用于呈現(xiàn)超文本標(biāo)記語(yǔ)言頁(yè)的裝置和方法
- 在HTML頁(yè)面中嵌入HTML頁(yè)面的方法及裝置
- 一種從HTML文本中提取有效信息的方法和裝置
- HTML5文件安全保護(hù)方法、系統(tǒng)及終端設(shè)備
- 一種基于BPM系統(tǒng)的EXECL導(dǎo)入免開(kāi)發(fā)生成靜態(tài)HTML表單的方法
- 一種生成目標(biāo)頁(yè)面的方法
- 網(wǎng)頁(yè)渲染方法和裝置
- 數(shù)據(jù)顯示系統(tǒng)、數(shù)據(jù)中繼設(shè)備、數(shù)據(jù)中繼方法、數(shù)據(jù)系統(tǒng)、接收設(shè)備和數(shù)據(jù)讀取方法
- 數(shù)據(jù)記錄方法、數(shù)據(jù)記錄裝置、數(shù)據(jù)記錄媒體、數(shù)據(jù)重播方法和數(shù)據(jù)重播裝置
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)發(fā)送系統(tǒng)、數(shù)據(jù)發(fā)送裝置以及數(shù)據(jù)結(jié)構(gòu)
- 數(shù)據(jù)顯示系統(tǒng)、數(shù)據(jù)中繼設(shè)備、數(shù)據(jù)中繼方法及數(shù)據(jù)系統(tǒng)
- 數(shù)據(jù)嵌入裝置、數(shù)據(jù)嵌入方法、數(shù)據(jù)提取裝置及數(shù)據(jù)提取方法
- 數(shù)據(jù)管理裝置、數(shù)據(jù)編輯裝置、數(shù)據(jù)閱覽裝置、數(shù)據(jù)管理方法、數(shù)據(jù)編輯方法以及數(shù)據(jù)閱覽方法
- 數(shù)據(jù)發(fā)送和數(shù)據(jù)接收設(shè)備、數(shù)據(jù)發(fā)送和數(shù)據(jù)接收方法
- 數(shù)據(jù)發(fā)送裝置、數(shù)據(jù)接收裝置、數(shù)據(jù)收發(fā)系統(tǒng)、數(shù)據(jù)發(fā)送方法、數(shù)據(jù)接收方法和數(shù)據(jù)收發(fā)方法
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)再現(xiàn)方法、數(shù)據(jù)發(fā)送裝置及數(shù)據(jù)再現(xiàn)裝置
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)再現(xiàn)方法、數(shù)據(jù)發(fā)送裝置及數(shù)據(jù)再現(xiàn)裝置
- 一種數(shù)據(jù)庫(kù)讀寫(xiě)分離的方法和裝置
- 一種手機(jī)動(dòng)漫人物及背景創(chuàng)作方法
- 一種通訊綜合測(cè)試終端的測(cè)試方法
- 一種服裝用人體測(cè)量基準(zhǔn)點(diǎn)的獲取方法
- 系統(tǒng)升級(jí)方法及裝置
- 用于虛擬和接口方法調(diào)用的裝置和方法
- 線程狀態(tài)監(jiān)控方法、裝置、計(jì)算機(jī)設(shè)備和存儲(chǔ)介質(zhì)
- 一種JAVA智能卡及其虛擬機(jī)組件優(yōu)化方法
- 檢測(cè)程序中方法耗時(shí)的方法、裝置及存儲(chǔ)介質(zhì)
- 函數(shù)的執(zhí)行方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)





