[發明專利]一種面向WEB服務的通用爬蟲引擎系統及其工作方法無效
| 申請號: | 201110120161.0 | 申請日: | 2011-05-10 |
| 公開(公告)號: | CN102184227A | 公開(公告)日: | 2011-09-14 |
| 發明(設計)人: | 趙耀;鄒華;帖晶;楊放春;劉志晗;李靜林;林榮恒;孫其博 | 申請(專利權)人: | 北京郵電大學 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 北京德琦知識產權代理有限公司 11018 | 代理人: | 夏憲富 |
| 地址: | 100876 *** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 面向 web 服務 通用 爬蟲 引擎 系統 及其 工作 方法 | ||
技術領域
本發明涉及于主題(聚焦)爬蟲技術,確切地說,涉及一種面向WEB服務的通用爬蟲引擎系統及其識別互聯網上的WEB服務的工作方法,屬于互聯網的搜索引擎技術領域。
背景技術
隨著互聯網上WEB應用的增多,越來越多的WEB服務被企業發布到互聯網上,WEB服務在企業之間及企業內部開發基于構件的松散耦合系統中起著重要的作用。現有的WEB服務從使用規模和數量上主要分為兩大類:
(一)以采用服務描述語言WSDL(WEB?Services?Description?Language)描述的服務為代表的結構化WEB服務,這類服務主要使用簡單對象訪問協議SOAP(Simple?Object?Access?Protocol),并使用可擴展標記語言XML(Extensible?Markup?Language)傳輸數據。
(二)以RESTful?WEB服務為代表的非結構化WEB服務:RESTful?WEB服務遵循表示性狀態轉移REST(Representational?State?Transfer)風格,并且,這類服務在整個非結構化WEB服務中占有絕大多數的份額。另一類非結構化WEB服務主要是其他形式的WEB?API服務,這類服務的比重僅次于RESTfulWEB服務。
至今為止,ProgrammableWeb是提供最大量的WEB服務注冊和查詢的門戶網站,它提供了門類齊全的WEB服務,可以讓用戶按服務的類別、提供服務的公司、服務使用的協議/風格、傳輸數據的格式、服務的注冊時間等分類查看服務列表。ProgrammableWeb現在收錄的服務有3074個,圖1所示的圖片摘自http://www.programmableweb.com/apis,該圖從使用協議的角度顯示了不同WEB服務所占的比例。從該統計圖可以看出:傳統的使用SOAP協議的結構化WEB服務有被以RESTful為代表的非結構化的WEB服務逐步取代的趨勢,其主要原因是因為這些非結構化的WEB服務遵循REST的架構設計風格。這類服務在URL鏈接的設計、協議的選擇和消息的傳輸上都比結構化的WEB服務要簡單得多。現在許多著名的WEB站點(如Google,Amazon、Facebook、Flickr等)都提供了容易使用、免費訪問它們資源的RESTful?WEB服務及APIs。
以RESTful為代表的非結構化WEB服務廣泛存在于互聯網,查找和搜索這類服務為企業間信息互通和服務集成都有著非常重要的意義。非結構化WEB服務的開發是自治的,沒有統一規定的標準或規則,服務文檔通常也不是一個類似于WSDL的接口描述文件,而是一個普通的HTML的WEB頁面。非結構化WEB服務的這些固有特性,使得現在的通用WEB服務爬蟲引擎系統很難識別和抓取互聯網上的這類服務。
目前,WEB服務爬蟲引擎系統的現有技術方案有下述三種:
(A)基于UDDI注冊中心:使用該方式,爬蟲引擎可抓取的Web服務的比例很小。比較有代表性的UDDI注冊中心在2006年就關閉了,而且,UDDI注冊中心對服務的注冊者的信息和服務的Qos信息不進行實時考證,爬蟲引擎抓取的數據可能大部分都是過時的或不存在的。
(B)通過WEB服務網站:由于提供服務的門戶所收錄的WEB服務并沒有囊括互聯網中所有WEB服務,并且這類服務網站對服務注冊者提供的服務信息并沒有進行實時的驗證(包括服務的可用性,QoS等)。爬蟲引擎以這類網站作為目標獲取的數據可能大部分也是過時的或者不可信的。
(C)使用通用搜索引擎:該方式的弊端也是很明顯,因為通用搜索引擎面對的是廣大的人群,它們考慮的是網頁覆蓋面盡可能大和廣;然而,對于服務領域的搜索來說,通用搜索引擎的搜索結果往往不如人意。
服務搜索技術的一個目標是如何識別和抓取互聯網上所有的WEB服務,這也是當今服務搜索方面的研究熱點問題。國外的Seekda和Service?Finder是服務搜索方面的先行者。然而這兩個項目都僅僅對以WSDL為代表的結構化WEB服務提供了很好的支持。對于非結構化WEB服務的搜索,國內外都還沒有相關的研究成果或可實用的技術方案。因此,如何解決該技術問題,就成為業內科技人員關注的焦點課題。
發明內容
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京郵電大學,未經北京郵電大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201110120161.0/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種治療艾滋病的中藥洗液及其制備方法
- 下一篇:一種公共空調汽車獨立風幕裝置





