[發明專利]Web服務資源庫數據的清洗方法和服務器有效
| 申請號: | 201310495796.8 | 申請日: | 2013-10-21 |
| 公開(公告)號: | CN103559225B | 公開(公告)日: | 2017-04-05 |
| 發明(設計)人: | 孫海龍;劉旭東;郭莉莎;李春娥 | 申請(專利權)人: | 北京航空航天大學 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 北京同立鈞成知識產權代理有限公司11205 | 代理人: | 劉芳 |
| 地址: | 100191*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | web 服務 資源庫 數據 清洗 方法 服務器 | ||
技術領域
本發明涉及信息技術領域,尤其涉及一種Web服務資源庫數據的清洗方法和服務器。
背景技術
隨著服務計算和網絡化軟件技術的發展,通過組合多個簡單服務來滿足復雜應用需求已成為網絡化軟件開發的重要方法。Web服務資源庫即可實現在Web網絡中主動發現可重用的服務,分析不同Web服務的功能并對可重用服務資源進行收集、描述、組織和管理,Web服務資源庫是輔助服務發現和使用的關鍵途徑。
Web服務資源庫一方面允許用戶注冊服務資源,一方面從網絡爬取公開的服務。隨著資源庫中Web服務數量的增多,服務資源的質量問題也隨之凸顯。資源的大量完全重復、功能描述信息不完整、暫時不可用資源過多等,均對Web網的整體服務造成影響。
目前,針對數據倉庫中的數據的管理常采用一種數據清洗技術。在數據庫中通常存在許多錯誤數據、相互之間有沖突的數據,這些錯誤的或有沖突的數據被稱為“臟數據”,按照一定的規則把“臟數據”“洗掉”,這就是數據清洗。雖然現有技術中,存在很多數據清洗算法以及清洗工具,但這些算法以及工具都是和特定領域相關的,領域知識在數據清洗過程中是必不可少的一部分。很多情況下,只有結合特定應用領域的知識才可以更高效地完成相應的數據清洗。但就目前的市場上,還沒有針對Web服務資源庫數據的清洗方案。
發明內容
本發明提供一種Web服務資源庫數據的清洗方法和服務器,用以提供一套針對Web服務資源庫數據的清洗方案。
一方面,本發明實施例提供一種Web服務資源庫數據的清洗方法,包括:
服務器獲取Web服務資源庫中多個Web服務的描述語言WSDL文件;
所述服務器對所述多個Web服務的WSDL文件進行分類,以得到多個不同類別的Web服務集合;
針對于每個所述Web服務集合中的各Web服務,所述服務器計算每兩個所述Web服務對應的WSDL文件間的編輯距離,并在所述編輯距離小于預設閾值的WSDL文件對應的兩個Web服務之間確定連通關系;
所述服務器根據每個所述Web服務集合中各Web服務之間的所述連通關系構建各所述Web服務集合對應的連通組圖,所述連通組圖包括至少一個連通子圖;
所述服務器將每個所述連通子圖中度最大的一個Web服務作為第一Web服務,并刪除所述連通子圖中除所述第一Web服務外的其他Web服務。
另一方面,本發明實施例提供一種服務器,包括:獲取模塊、分類模塊、計算模塊、建立模塊和處理模塊;
所述獲取模塊,用于獲取Web服務資源庫中多個Web服務的描述語言WSDL文件;
所述分類模塊,用于對所述多個Web服務的WSDL文件進行分類,以得到多個不同類別的Web服務集合;
所述計算模塊,用于針對于每個所述Web服務集合中的各Web服務,計算每兩個所述Web服務對應的WSDL文件間的編輯距離,并在所述編輯距離小于預設閾值的WSDL文件對應的兩個Web服務之間確定連通關系;
所述建立模塊,用于根據每個所述Web服務集合中各Web服務之間的所述連通關系構建各所述Web服務集合對應的連通組圖,所述連通組圖包括至少一個連通子圖;
所述處理模塊,用于將每個所述連通子圖中度最大的一個Web服務作為第一Web服務,并刪除所述連通子圖中除所述第一Web服務外的其他Web服務。
本發明提供的Web服務資源庫數據的清洗系統方法和服務器,通過對獲取的Web服務資源庫中多個的Web服務的描述語言WSDL文件進行分類,得到多個不同類別的Web服務集合;針對于每個Web服務集合中的各Web服務,計算每兩個Web服務對應的WSDL文件間的編輯距離,并在編輯距離小于預設閾值的WSDL文件對應的兩個Web服務之間確定連通關系;根據每個Web服務集合中各Web服務之間的連通關系構建各Web服務集合對應的連通組圖,該連通組圖包括至少一個連通子圖;將每個連通子圖中度最大的一個Web服務作為第一Web服務,并刪除該連通子圖中其他Web服務,進而提供一種針對Web服務資源庫數據的清洗方案。
附圖說明
圖1為本發明提供的Web服務資源庫數據的清洗方法一個實施例的流程圖;
圖2(圖2a,圖2b)為本發明提供的Web服務資源庫數據的清洗方法另一個實施例的流程圖;
圖3為本發明提供的元素標簽樹的結構示意圖;
圖4為本發明提供的服務器一個實施例的結構示意圖。
具體實施方式
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京航空航天大學,未經北京航空航天大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201310495796.8/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:散熱鋁基電路板
- 下一篇:背接觸式太陽能電池的太陽能背板
- 數據顯示系統、數據中繼設備、數據中繼方法、數據系統、接收設備和數據讀取方法
- 數據記錄方法、數據記錄裝置、數據記錄媒體、數據重播方法和數據重播裝置
- 數據發送方法、數據發送系統、數據發送裝置以及數據結構
- 數據顯示系統、數據中繼設備、數據中繼方法及數據系統
- 數據嵌入裝置、數據嵌入方法、數據提取裝置及數據提取方法
- 數據管理裝置、數據編輯裝置、數據閱覽裝置、數據管理方法、數據編輯方法以及數據閱覽方法
- 數據發送和數據接收設備、數據發送和數據接收方法
- 數據發送裝置、數據接收裝置、數據收發系統、數據發送方法、數據接收方法和數據收發方法
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置





