[發明專利]一種基于html網頁的數據抽取系統無效

申請號：	201310200116.5	申請日：	2013-05-27
公開（公告）號：	CN103309954A	公開（公告）日：	2013-09-18
發明（設計）人：	王新;陳功鎖;權恒星	申請（專利權）人：	復旦大學
主分類號：	G06F17/30	分類號：	G06F17/30
代理公司：	上海正旦專利代理有限公司 31200	代理人：	陸飛;盛志范
地址：	200433 ***	國省代碼：	上海;31
權利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關鍵詞：	一種基于 html 網頁數據抽取系統
鉆瓜網技術展會專利詞庫專利權人專利榜在售專利公布日期熱門專利

【說明書】：

技術領域

本發明屬于計算機網絡技術領域，具體的說，涉及一種基于html網頁的數據抽取系統。首先通過http?get請求獲取目標網頁文檔，然后通過在配置文件中使用我們定義的標記描述目標節點，最后經過我們的html?engine解析，得到我們想要的目標數據。

背景技術

伴隨著中國經濟的快速發展，互聯網正在悄然發生著突飛猛進的變化。電子商務網站，門戶網站，博客，微博等各種類型的信息都發布在互聯網上。雖然互聯網上充斥著非常非常多的信息，但是同時我們也注意到，這些信息大多是非結構化數據，有時候為了科學研究或者其他需要，我們希望從互聯網上獲取數據，并將它們轉化為結構化數據保存，利用這些結構化數據驗證我們的模型。

傳統的獲得結構化數據的做法是先通過html?get請求獲得該頁面資源，然后針對每一個具有相同頁面結構的html頁面編寫一個html解析器，再獲得目標節點的數據，保存在相應的介質中。但是這樣的做法會帶來一些問題，如我們需要解析的頁面非常多，且這些頁面的頁面結構大多不一樣，那么需要編寫的html頁面解析器就會非常的多。當需要解析的頁面非常多時，這種方法是比較低下的，且效率不高，實現起來比較麻煩。

????出于上述方面的考慮，我們提出了一種基于html網頁的數據抽取系統。該系統通過利用我們的規則，描述具有相同頁面結構的html的目標節點，然后由html引擎解析配置文件，從而得到我們想要的目標節點的結構化數據。通過這種方式，我們不需要為每個具有不同頁面結構的html網頁編寫頁面解析器，而只需要在我們的配置文件中，描述清楚這類具有相同頁面結構的html網頁的目標節點信息，這大大的減少了html網頁解析器的用量，提高了效率。

發明內容

本發明主要提出了一種通用的html網頁數據抽取系統。通過在xml配置文件中描述具有相同頁面結構的目標節點，然后由html?引擎來統一處理所有的html頁面。

本發明提出的一種基于html網頁的數據抽取系統，該系統由三個模塊組成，分別是xml解析器模塊，html引擎模塊以及數據管理器模塊，關于三個模塊的功能描述如下：

一：xml解析器模塊

xml解析器模塊負責解析sysconfig.xml文件，得到系統初始化參數、頁面的url地址以及目標節點的描述信息；

xml解析器模塊獲得pages節點下的所有,page信息，在page信息中描述具有相同頁面結構的一組url鏈接地址信息。?

二：html引擎模塊

html引擎模塊首先驗證sysconfig.xml文件配置信息的有效性，如果有效則繼續執行，否則提示用戶檢查xml文件配置信息。Xml文件配置通過驗證之后，根據配置信息中的頁面鏈接地址，獲取該頁面的html文檔，然后再調用html解析器來解析html文檔，根據sysconfig.xml中定義的目標節點獲取規則，獲得html中目標元素，從而獲得該元素的數據。

html引擎模塊為系統的核心模塊，主要完成xml文件的驗證，驗證xml配置信息是否正確，尤其是xml文件中關于html頁面目標抓取節點的描述是否有效。如果驗證未能通過則提示用戶修正xml文件。

通過上述驗證之后，根據xml解析器模塊獲得的html頁面url地址，經httpget請求得到該頁面的html字符串，再由html解析器將html字符串轉化為具有dom樹結構的html文檔，根據sysconfig.xml中配置的目標節點選擇器描述信息，最終得到dom樹中的目標節點，從而得到所需的數據。

三：數據管理器模塊

數據管理模塊主要是負責數據的持久化工作，根據用戶在sysconfig.xml中配置的數據保存方式，選擇相應的數據管理器來完成數據的持久化工作。

數據管理器模塊提供多種不同的數據持久化方式，包括文本文件，excel文件以及數據庫等等，根據上述html數據抓取引擎獲得的數據以及sysconfig.xml中配置的數據保存方式，最終由數據管理器完成數據的持久化工作。

數據管理器模塊提供了一組統一的接口供上層應用程序調用，如文件的打開，文件的讀取，文件的寫入，以及文件的關閉。上層應用程序通過該接口完成數據的讀取和寫入，從而完成數據的持久化工作。

本發明中，系統進行數據抽取的工作流程如下：

首先，html引擎模塊根據xml解析器模塊獲得的html頁面url地址，通過http?get請求獲取目標網頁文檔；

下載完整專利技術內容需要扣除積分，VIP會員可以免費下載。

免登錄下載普通用戶下載升級VIP會員，免費下載

該專利技術資料僅供研究查看技術是否侵權等信息，商用須獲得專利權人授權。該專利全部權利屬于復旦大學，未經復旦大學許可，擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作，請聯系【客服】

本文鏈接：http://www.szxzyx.cn/pat/books/201310200116.5/2.html，轉載請聲明來源鉆瓜專利網。