[發明專利]基于XPath序列的網頁列表解析方法及系統有效

申請號：	202010825868.0	申請日：	2020-08-17
公開（公告）號：	CN111966930B	公開（公告）日：	2021-05-04
發明（設計）人：	李釗;王瑞霜;陳通;盧鳳;胡傳會;魏靜	申請（專利權）人：	山東億云信息技術有限公司
主分類號：	G06F16/955	分類號：	G06F16/955;G06F16/958;G06F40/14
代理公司：	濟南圣達知識產權代理有限公司 37221	代理人：	黃海麗
地址：	250014 山東省濟南市***	國省代碼：	山東;37
權利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關鍵詞：	基于 xpath 序列網頁列表解析方法系統
鉆瓜網技術展會專利詞庫專利權人專利榜在售專利公布日期熱門專利

【說明書】：

本發明公開了基于XPath序列的網頁列表解析方法及系統，包括：根據URL獲取網頁的HTML源代碼；根據網頁的HTML源代碼，生成DOM Tree；根據DOM Tree，獲取網頁中列表項的候選路徑；從候選路徑中篩選出列表項的簡化XPath路徑，建立候選簡化XPath路徑與標簽label的字典；根據簡化XPath路徑與標簽label的字典，獲取網頁列表項的結果。

技術領域

本申請涉及網頁列表解析技術領域，特別是涉及基于XPath序列的網頁列表解析方法及系統。

背景技術

本部分的陳述僅僅是提到了與本申請相關的背景技術，并不必然構成現有技術。

隨著信息技術的飛速發展，互聯網已經成為信息共享的巨大載體。隨著網絡上信息資源的不斷增加，越來越多的公司從網絡上獲取數據資源來滿足自己的需求。因此，網頁數據的提取將變得越來越重要而且具有巨大的應用價值和發展前景。列表是網頁中一項很重要的數據結構，通過獲取列表的信息，進而進行網頁內容的提取。由于不同網頁中的列表項其HTML編寫的樣式不同，這將導致很難從不規則的網頁中提取出列表信息。

發明人發現，目前，已有一些方法對網頁列表進行提取，包括手動和自動提取方法。手動提取需要人根據網頁源代碼獲取其規則，然后再進行提取，這將耗費大量的人力，效率低。自動抽取技術包括根據節點的css樣式相似性進行抽取等，這些方式的準確率還有待提高。因此本專利提出一種基于規則的網頁列表解析方法，并取得較高的準確率。

發明內容

為了解決現有技術的不足，本申請提供了基于XPath序列的網頁列表解析方法及系統；

第一方面，本申請提供了基于XPath序列的網頁列表解析方法；

基于XPath序列的網頁列表解析方法，包括：

根據URL獲取網頁的HTML源代碼；

根據網頁的HTML源代碼，生成DOM Tree；

根據DOM Tree，獲取網頁中列表項的候選路徑；

從候選路徑中篩選出列表項的簡化XPath路徑，建立候選簡化XPath路徑與標簽label的字典；

根據簡化XPath路徑與標簽label的字典，獲取網頁列表項的結果。

第二方面，本申請提供了基于XPath序列的網頁列表解析系統；

基于XPath序列的網頁列表解析系統，包括：

第一獲取模塊，其被配置為：根據URL獲取網頁的HTML源代碼；