[發明專利]網頁結構化數據的抓取方法及系統有效
| 申請號: | 201910515145.8 | 申請日: | 2019-06-14 |
| 公開(公告)號: | CN110309394B | 公開(公告)日: | 2021-06-04 |
| 發明(設計)人: | 林晨;陳文極;林震宇;徐立宇;林智泓;陳藝輝;陶崢 | 申請(專利權)人: | 中國建設銀行股份有限公司;建信金融科技有限責任公司 |
| 主分類號: | G06F16/951 | 分類號: | G06F16/951 |
| 代理公司: | 北京三友知識產權代理有限公司 11127 | 代理人: | 王濤;任默聞 |
| 地址: | 100033 *** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 網頁 結構 數據 抓取 方法 系統 | ||
本發明提供一種網頁結構化數據的抓取方法及系統。該網頁結構化數據的抓取方法包括:依次對每列網頁數據執行如下處理:獲取第一條數據的標簽鏈作為第一標簽鏈;當第一標簽鏈中存在表格元素時:獲取存在表格元素的全部子標簽以構成標簽合集;提取標簽合集中包括表格文字標簽的文本以組織列結構化數據;當第一標簽鏈中不存在表格元素時:獲取第二條數據的標簽鏈作為第二標簽鏈;根據第一標簽鏈和第二標簽鏈獲取總開頭標簽;將存在總開頭標簽的其余數據的標簽鏈放入子節點合集中;提取子節點合集中的全部文本標簽以組織列結構化數據;根據每列網頁數據對應的列結構化數據組成網頁結構化數據,以保留抓取數據的原有結構,方便后續的數據處理。
技術領域
本發明涉及數據抓取領域,具體地,涉及一種網頁結構化數據的抓取方法及系統。
背景技術
結構化數據也稱作行數據,是一種特定類型的信息。狹義的結構化數據是由二維表結構來邏輯表達和實現的,其嚴格遵循數據格式與長度規范,主要通過關系型數據庫進行存儲和管理。而在當今的網頁中,大量存在著廣義的結構化數據,其表現為擁有一定的相同樣式,且以可推理可預測的形式出現。例如,搜索引擎上的所有搜索結果,大致都是由搜索結果、部分摘要以及URL鏈接所構成。對整個搜索結果來說,這構成了一個有序的結構單元,可以視作結構化數據。同樣的結構化數據還有網頁中的表格、圖片集、文章段落等。
從網頁中抓取數據時,現有技術一般采取如下兩種方法:
1、直接復制粘貼到本地文件。如果僅僅使用復制粘貼的方式去抓取網頁上的數據,極有可能丟失了數據原有的結構,僅僅得到了一個數據集。使用者必須重新處理該數據,根據一定的規則重新組織這些數據。這種方式加大了使用者的工作量,也可能因為操作原因出現結構上的錯誤。
2、直接保存網頁到本地。如果僅是保存數據以供簡單的查閱,這種方式是可行的。但如果需要對數據進行入庫、使用等操作,仍然無法避免地需要進行方法1的步驟,對數據進行重新整理。
發明內容
本發明實施例的主要目的在于提供一種網頁結構化數據的抓取方法及系統,以保留抓取數據的原有結構,方便后續的數據處理。
為了實現上述目的,本發明實施例提供一種網頁結構化數據的抓取方法,包括:
獲取一列或多列網頁數據;
依次對每列網頁數據執行如下處理:
獲取第一條數據的標簽鏈作為第一標簽鏈;
判斷第一標簽鏈中是否存在表格元素;
當第一標簽鏈中存在表格元素時:
將表格元素所在的標簽層級作為根節點,獲取根節點下存在表格元素的全部子標簽以構成標簽合集;
提取標簽合集中包括表格文字標簽的文本以組織列結構化數據;
當第一標簽鏈中不存在表格元素時:
獲取第二條數據的標簽鏈作為第二標簽鏈;
根據第一標簽鏈和第二標簽鏈獲取總開頭標簽;
判斷其余每條數據的標簽鏈中是否存在總開頭標簽;當存在總開頭標簽時,將該數據的標簽鏈放入子節點合集中;
提取子節點合集中的全部文本標簽以組織列結構化數據;
根據每列網頁數據對應的列結構化數據組成網頁結構化數據。
本發明實施例還提供一種網頁結構化數據的抓取系統,包括:
第一獲取單元,用于獲取一列或多列網頁數據;
第二獲取單元,用于獲取第一條數據的標簽鏈作為第一標簽鏈;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中國建設銀行股份有限公司;建信金融科技有限責任公司,未經中國建設銀行股份有限公司;建信金融科技有限責任公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910515145.8/2.html,轉載請聲明來源鉆瓜專利網。
- 數據顯示系統、數據中繼設備、數據中繼方法、數據系統、接收設備和數據讀取方法
- 數據記錄方法、數據記錄裝置、數據記錄媒體、數據重播方法和數據重播裝置
- 數據發送方法、數據發送系統、數據發送裝置以及數據結構
- 數據顯示系統、數據中繼設備、數據中繼方法及數據系統
- 數據嵌入裝置、數據嵌入方法、數據提取裝置及數據提取方法
- 數據管理裝置、數據編輯裝置、數據閱覽裝置、數據管理方法、數據編輯方法以及數據閱覽方法
- 數據發送和數據接收設備、數據發送和數據接收方法
- 數據發送裝置、數據接收裝置、數據收發系統、數據發送方法、數據接收方法和數據收發方法
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置





