[發明專利]網頁數據解析方法、裝置及計算機可讀存儲介質在審
| 申請號: | 201910042023.1 | 申請日: | 2019-01-17 |
| 公開(公告)號: | CN109918428A | 公開(公告)日: | 2019-06-21 |
| 發明(設計)人: | 檀傳華;冉夢龍;孟文斌;李祖光;陳錦韜 | 申請(專利權)人: | 重慶金融資產交易所有限責任公司 |
| 主分類號: | G06F16/25 | 分類號: | G06F16/25;G06F16/951 |
| 代理公司: | 深圳市沃德知識產權代理事務所(普通合伙) 44347 | 代理人: | 高杰;于志光 |
| 地址: | 400010 重慶市渝*** | 國省代碼: | 重慶;50 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 抓取 網頁數據解析 解析 數據抓取 計算機可讀存儲介質 頁面 網頁抓取 頁面數據 結構化數據格式 數據采集技術 結構化數據 結構化信息 獨立運行 分開執行 格式轉換 網絡頁面 網站結構 數據處理 低耦合 內聚 匹配 抽取 存儲 轉換 | ||
本發明涉及數據采集技術領域,揭露了一種網頁數據解析方法,包括:在進行數據抓取時,針對需抓取的數據所在的網絡頁面,解析并獲取待抓取數據所在的頁面個數;根據解析出的待抓取數據所在的頁面個數,利用與所述頁面個數相匹配的數據抓取方式進行數據抓取,得到抓取的頁面數據;針對抓取到的所述頁面數據進行數據處理,生成所需的結構化數據并存儲。本發明還提出一種網頁數據解析裝置以及一種計算機可讀存儲介質。本發明實現了一種網頁抓取初次解析與結構化數據格式轉換進行分開執行的網頁數據解析技術,降低網頁數據解析對源網站結構的過度依賴;另外,網頁抓取初次解析與結構化信息抽取格式轉換分開,獨立運行,具有高內聚低耦合的有益效果。
技術領域
本發明涉及數據處理技術領域,尤其涉及一種網頁數據解析方法、裝置及計算機可讀存儲介質。
背景技術
隨著互聯網信息技術的不斷進步和互聯網應用的多元化,網絡技術越來越深刻地改變著人們的工作、學習以及生活方式,甚至影響著整個社會的進程。而互聯網的飛速發展,使得大數據時代也加速到來,全球企業都對于大數據充滿了積極的熱情,大數據分析處理也應運而生。大數據處理流程主要包括數據采集、數據存儲整合、數據預處理、數據挖掘分析、數據展現應用等。傳統行業在開展大數據時,首先面對的就是如何獲得基于企業內部數據之外的互聯網數據。而互聯網采集的數據一般都是無結構或半結構化的文本、圖片、音頻以及視頻等等。如何將這些數據解析并結構化,將是與企業組織內數據整合以進行數據挖掘的必不可少的工作。
目前市場上的爬蟲系統對解析網頁主要有兩種方式:一是抓取全部網頁,然后集中一次解析;二是,網頁抓取與數據解析、格式轉換耦合在一起執行。第一種方式在集中解析時,不能很好的處理網頁之間的先后和數據關聯等問題;第二種方式對源網站的結構、格式等依賴太大,如果異常就要重新抓取網頁,耦合性太高。此外,上述這兩種網頁數據的解析方式在數據解析引擎、配置化的數據抽取以及格式轉換等方面都有所欠缺。
發明內容
本發明提供一種網頁數據解析方法、裝置及計算機可讀存儲介質,其主要目的在于提供一種網頁抓取初次解析與結構化數據格式轉換進行分開執行的網頁數據解析技術,降低網頁數據解析對源網站結構的過度依賴。
為實現上述目的,本發明提供一種網頁數據解析方法,該方法包括:
在進行數據抓取時,針對需抓取的數據所在的網絡頁面,解析并獲取待抓取數據所在的頁面個數;
根據解析出的待抓取數據所在的頁面個數,利用與所述頁面個數相匹配的數據抓取方式進行數據抓取,得到抓取的頁面數據;
針對抓取到的所述頁面數據進行數據處理,生成所需的結構化數據并存儲。
可選地,所述根據解析出的待抓取數據所在的頁面個數,利用與所述頁面個數相匹配的數據抓取方式進行數據抓取,得到抓取的頁面數據,包括:
若待抓取數據在單個頁面中,則從所述單個頁面中提取對應的HTML文件片段;
若待抓取數據在多個頁面中,則從所述待抓取數據對應的多個頁面中提取對應的頁面數據,并根據所述多個頁面間的數據關系,將提取的頁面數據生成對應的數組。
可選地,所述根據所述多個頁面間的數據關系,將提取的頁面數據生成對應的數組,包括:
根據待抓取數據對應的網絡頁面HTML結構中的表標簽,提取所述網絡頁面HTML結構中的頁面數據,生成包含表的標題和所述標題對應的明細數據的二維數組。
可選地,所述針對抓取到的所述頁面數據進行數據處理,生成所需的結構化數據并存儲,包括:
從抓取到的所述頁面數據中抽取出結構化數據,得到抽取后余下的非結構化數據;
針對非結構化數據,利用數據加工引擎,按照預設的配置文件,對所述非機構數據進行格式轉換,生成所需的結構化數據;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于重慶金融資產交易所有限責任公司,未經重慶金融資產交易所有限責任公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910042023.1/2.html,轉載請聲明來源鉆瓜專利網。





