[發明專利]網頁結構化數據提取方法與系統無效

申請號：	200810036268.5	申請日：	2008-04-18
公開（公告）號：	CN101561802A	公開（公告）日：	2009-10-21
發明（設計）人：	張世永;吳承榮;謝劍鋒	申請（專利權）人：	上海復旦光華信息科技股份有限公司
主分類號：	G06F17/30	分類號：	G06F17/30
代理公司：	暫無信息	代理人：	暫無信息
地址：	200433上海***	國省代碼：	上海;31
權利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關鍵詞：	網頁結構數據提取方法系統
鉆瓜網技術展會專利詞庫專利權人專利榜在售專利公布日期熱門專利

【說明書】：

技術領域

本發明是一種網絡信息采集技術，具體涉及一種網頁結構化數據提取的系統和方法，屬于網絡信息技術領域。

背景技術

隨著網絡信息技術的發展，網站、論壇、博克等網頁信息越來越大，搜索引擎、內容分析、輿情分析等技術都是對這些信息進行某種分析處理的，它們都用到了網絡爬蟲這一種技術。網絡爬蟲，又名網絡蜘蛛，是一種對網頁連接進行自動分析，并自動獲取信息存儲到本地的數據采集方法。目前，不僅僅搜索引擎，還有很多的應用將網絡爬蟲作為數據采集的主要來源，如網絡內容智能化分析；不僅僅需要傳統的關鍵詞檢索，還需要多種頁面上結構化數據/非結構化數據的挖掘分析。因此，傳統的僅僅下載網頁的網絡爬蟲已經越來越不適合發展的需要了，需要開發新的能夠自動提取網絡結構化數據/非結構化數據的網絡爬蟲。

目前，對網頁結構化數據進行提取的功能在很多網絡爬蟲系統和產品中都出現過，但是，在方法和技術上都有一定的局限性，導致在實際的應用上遇到了一些困難：

1.對結構化數據的提取直接在程序內設定某個網站或者某類頁面字段規則，從而提取出結構化數據。這樣的做法限制了網頁結構化數據提取的應用范圍，只能局限在類似的網頁內進行。

2.對某類字段，如時間，按照網頁一般放置的區域，設定查詢的半徑范圍來進行結構化數據提取。這種方法具有一定的自適應性，但是，網頁的數據結構是千變萬化的，不僅僅同類字段的放置區域、半徑范圍很難統一起來，而且絕大部分的字段是很難用這種方法來實現的。

3.直接采用模板配置的方式。一些網絡爬蟲通過讀取外部的配置文件，從而減少對不同類型的網站都需要制作不同的應用程序的麻煩。但是，這些配置文件的制作，往往需要非常熟悉網頁設計的人員來制作，這就對用戶的計算機軟件知識提出了要求，限制了用戶范圍。

4.不同網站的頻道、版塊、深度、廣告、用戶關注信息等網站結構是不同的，針對這種情況，目前還沒有網絡爬蟲開發讓用戶自主的選擇后，再進行相關頁面自動采集的方法；

5.大量的javascript腳本語言在網頁上被采用，針對如何提取由javascript所控制的機構化數據，目前的網絡爬蟲仍然缺乏行之有效的方法。

由此可見，在網絡爬蟲應用范圍不斷擴大的情況下，對網頁的結構化數據提取提出了更高的要求，而現有的網絡爬蟲技術和產品還無法完全滿足更高的智能化的數據采集要求。

發明內容

本發明的目的主要是針對現有網絡爬蟲在結構化數據提取中存在的缺陷，提出一種網頁結構化數據提取方法與系統，它主要是通過對同類網頁相同字段的正則表達式訓練自動制作配置模板，使得用戶不需要掌握專業的計算機知識就可以實現數據采集，擴展了現有網絡爬蟲的應用范圍，提升了網絡爬蟲的整體效能。

為實現上述目的，本發明提供一種網頁結構化數據提取方法，其特征在于包括以下步驟：

選擇訓練網頁內容集并提取目標結構化數據；

訓練所述訓練網頁內容集獲得與所述目標結構化數據匹配的正則表達式；

將所述正則表達式寫入配置模板；

利用所述配置模板采集網頁；

從所述采集網頁中提取結構化數據。

所述的網頁結構化數據提取方法，其特征在于所述訓練所述訓練網頁內容集獲得與所述目標結構化數據匹配的正則表達式的步驟包括以下步驟：

第一步，提取出所述訓練網頁內容集內各頁面內的所述目標結構化數據的位置；

第二步，利用字符串處理方法，得出所述目標結構化數據的前后緊鄰第一個字符，形成界定所述目標結構化數據的正則表達式；

第三步，利用所述正則表達式，在所述訓練網頁集內提取結構化數據；

第四步，如果所述結構化數據與所述目標結構化數據一致，轉下一步驟；否則，繼續加入前后字符，返回至第二步；

第五步，增加測試網頁，利用所述正則表達式在所述測試網頁內提取測試網頁結構化數據，如果所述測試網頁結構化數據與所述目標結構化數據一致，則所述正則表達式與所述目標結構化數據匹配；否則，將所述測試網頁添加至所述訓練網頁內容集，返回至第一步。

為了支持從含有JavaScript腳本語言的網頁提取結構化數據，所述的網頁結構化數據提取方法，其特征還在于所述訓練所述訓練網頁內容集獲得與所述目標結構化數據匹配的正則表達式的步驟還可以利用JavaScript解析庫生成URL超鏈接。

為了支持從含有JavaScript腳本語言的網頁提取結構化數據，所述的網頁結構化數據提取方法，其特征在于所述利用所述配置模板采集網頁的步驟還可以利用JavaScript解析庫生成URL超鏈接。

下載完整專利技術內容需要扣除積分，VIP會員可以免費下載。

免登錄下載普通用戶下載升級VIP會員，免費下載

該專利技術資料僅供研究查看技術是否侵權等信息，商用須獲得專利權人授權。該專利全部權利屬于上海復旦光華信息科技股份有限公司，未經上海復旦光華信息科技股份有限公司許可，擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作，請聯系【客服】

本文鏈接：http://www.szxzyx.cn/pat/books/200810036268.5/2.html，轉載請聲明來源鉆瓜專利網。

同類專利

專利分類

G 物理

G06 計算；推算；計數
G06F 電數字數據處理
G06F17-00 特別適用于特定功能的數字計算設備或數據處理設備或數據處理方法
G06F17-10 .復雜數學運算的
G06F17-20 .處理自然語言數據的
G06F17-30 .信息檢索；及其數據庫結構
G06F17-40 .數據的獲取和記錄
G06F17-50 .計算機輔助設計

免登錄下載普通用戶下載升級VIP會員，免費下載

專利文獻下載

說明：

1、專利原文基于中國國家知識產權局專利說明書；

2、支持發明專利、實用新型專利、外觀設計專利（升級中）；

3、專利數據每周兩次同步更新，支持Adobe PDF格式；

4、內容包括專利技術的結構示意圖、流程工藝圖或技術構造圖；

5、已全新升級為極速版,下載速度顯著提升！歡迎使用！

請您登陸后，進行下載，點擊【登陸】【注冊】