[發明專利]一種互聯網元數據的分布式采集處理系統及方法有效
| 申請號: | 201110351493.X | 申請日: | 2011-11-09 |
| 公開(公告)號: | CN102521232A | 公開(公告)日: | 2012-06-27 |
| 發明(設計)人: | 楊細強;萬超;付文敬 | 申請(專利權)人: | UT斯達康通訊有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 杭州九洲專利事務所有限公司 33101 | 代理人: | 陳繼亮 |
| 地址: | 310053 浙江省杭*** | 國省代碼: | 浙江;33 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 互聯網 數據 分布式 采集 處理 系統 方法 | ||
1.一種互聯網元數據的分布式采集處理方法,其特征是:該方法的具體步驟為:
(1)各業務應用系統通過互聯網分布式元數據采集系統的配置管理模塊配置提交元數據采集需求;
(2)互聯網分布式元數據采集系統的元數據采集組件模塊周期性地創建和執行頁面采集任務調度程序、生成的元數據可擴展標記語言文件;
A讀取各業務應用系統的元數據采集配置,歸并各業務應用系統的元數據采集需求信息的輸入元數據來源站點URL列表和輸出元數據映射;
B?以輸入元數據來源站點URL列表為入口,創建并執行抓取任務調度程序,進行映射化簡分布式處理,從因特網/企業內部網上抓取html頁面內容、并結合元數據映射過濾出有用的元數據源頁面;
C對元數據源頁面進行映射化簡分布式處理,根據元數據映射以及各業務應用系統的定義的元數據結構定義,生成目標元數據可擴展標記語言文件;
(3)互聯網分布式元數據采集系統的元數據輸出模塊將元數據采集組件生成的元數據可擴展標記語言文件輸出給各業務應用系統。
2.??根據權利要求1所述的互聯網元數據的分布式采集處理方法,其特征是:所述業務應用系統元數據采集配置包括以下三個方面:
(1)元數據來源站點URL列表:定義業務應用系統的元數據將從哪些web站點去抓?。?/p>
(2)元數據結構定義:定義業務應用系統的元數據的可擴展標記語言結構;
(3)元數據映射:具體定義業務應用系統的元數據將從哪些URL的html源頁面上提取、html源頁面字段與目標元數據可擴展標記語言字段之間的xpath對應關系。
3.根據權利要求1所述的互聯網元數據的分布式采集處理方法,其特征是:在步驟B中抓取流程為:?以元數據來源站點URL列表為初始入口、結合抓取歷史記錄,生成第一等級的抓取列表,然后在各分布式節點上創建并執行第一等級的抓取任務:根據抓取列表里的URL逐個抓取html頁面,計算html頁面內容的MD5值,在抓取歷史中查找此URL的記錄并比對MD5值:
若上次成功抓取過URL且MD5值與上次相同,則更新抓取歷史記錄、延長此URL的抓取周期,然后直接進入下一URL的抓取處理;
若未成功抓取過URL或是MD5值與上次不同,則需要完成以下三步后再進入下一URL的抓取處理:
B1)?若當前抓取等級小于系統的最大抓取等級,則需解析出此html里的超鏈接;
B2)?如果當前URL與元數據映射中的元數據映射單元的統一資源定位符前綴屬性匹配,則將此URL及html頁面內容放入元數據源中;
B3)?追加/更新抓取歷史記錄,包括以下信息:URL,?抓取等級,最近抓取狀態,最近抓取時間,抓取周期,下次抓取時間=最近抓取時間+抓取周期;
第一等級的抓取任務完成后,抓取任務將返回解析html所得的超鏈列表,抓取任務調度程序j將根據超鏈列表、結合抓取歷史記錄形成第二等級的抓取列表,創建并執行下一個等級的抓取任務調度程序,依此迭代,直到達到系統指定的最大抓取等級才結束本輪抓取。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于UT斯達康通訊有限公司,未經UT斯達康通訊有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201110351493.X/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:車用散熱器
- 下一篇:具有隔熱效果的回轉窯托輪裝置
- 數據顯示系統、數據中繼設備、數據中繼方法、數據系統、接收設備和數據讀取方法
- 數據記錄方法、數據記錄裝置、數據記錄媒體、數據重播方法和數據重播裝置
- 數據發送方法、數據發送系統、數據發送裝置以及數據結構
- 數據顯示系統、數據中繼設備、數據中繼方法及數據系統
- 數據嵌入裝置、數據嵌入方法、數據提取裝置及數據提取方法
- 數據管理裝置、數據編輯裝置、數據閱覽裝置、數據管理方法、數據編輯方法以及數據閱覽方法
- 數據發送和數據接收設備、數據發送和數據接收方法
- 數據發送裝置、數據接收裝置、數據收發系統、數據發送方法、數據接收方法和數據收發方法
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置





