[發明專利]Web服務資源庫數據的清洗方法和服務器有效
| 申請號: | 201310495796.8 | 申請日: | 2013-10-21 |
| 公開(公告)號: | CN103559225B | 公開(公告)日: | 2017-04-05 |
| 發明(設計)人: | 孫海龍;劉旭東;郭莉莎;李春娥 | 申請(專利權)人: | 北京航空航天大學 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 北京同立鈞成知識產權代理有限公司11205 | 代理人: | 劉芳 |
| 地址: | 100191*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | web 服務 資源庫 數據 清洗 方法 服務器 | ||
1.一種Web服務資源庫數據的清洗方法,其特征在于,包括:
服務器獲取Web服務資源庫中多個Web服務的描述語言WSDL文件;
所述服務器對所述多個Web服務的WSDL文件進行分類,以得到多個不同類別的Web服務集合;
針對于每個所述Web服務集合中的各Web服務,所述服務器計算每兩個所述Web服務對應的WSDL文件間的編輯距離,并在所述編輯距離小于預設閾值的WSDL文件對應的兩個Web服務之間確定連通關系;
所述服務器根據每個所述Web服務集合中各Web服務之間的所述連通關系構建各所述Web服務集合對應的連通組圖,所述連通組圖包括至少一個連通子圖;
所述服務器將每個所述連通子圖中度最大的一個Web服務作為第一Web服務,并刪除所述連通子圖中除所述第一Web服務外的其他Web服務。
2.根據權利要求1所述的方法,其特征在于,所述服務器對所述多個Web服務的WSDL文件進行分類,以得到多個不同類別的Web服務集合,包括:
所述服務器提取所述多個Web服務的WSDL文件中的關鍵信息,所述關鍵信息包括該Web服務的名稱信息、操作信息和消息信息;
所述服務器對所述WSDL文件中的關鍵信息進行分詞處理,并生成每個所述WSDL文件對應的特征向量,所述特征向量中的特征項對應于所述分詞處理后生成的每個關鍵詞在所屬的所述關鍵信息中出現的次數;
所述服務器將所述多個Web服務的對應WSDL文件對應的所述特征向量進行聚類運算,以得到多個不同類別的Web服務集合。
3.根據權利要求1或2所述的方法,其特征在于,所述針對于每個所述Web服務集合中的各Web服務,所述服務器計算每兩個所述Web服務對應的WSDL文件間的編輯距離,包括:
所述服務器根據每個Web服務的所述WSDL文件中包含的元素,以及所述元素之間的關系,構建所述WSDL文件對應的元素標簽樹,所述元素標簽樹的每個節點包括對應的所述元素的文本描述信息;
所述服務器將每個所述元素的文本描述信息進行分詞處理,生成每個節點對應的實詞集合;
針對于每個所述Web服務集合中的每兩個所述Web服務的WSDL文件,所述服務器將其對應的兩個元素標簽樹中各相同層的節點進行比較,若存在相同層的節點數目不同,則在節點個數較少的元素標簽樹的相應層的位置上添加空節點,以使所述兩個元素標簽樹中各相同層的節點的數目相同;
針對于每個所述Web服務集合中的每兩個所述Web服務的WSDL文件,所述服務器計算每兩個所述Web服務添加空節點后對應的兩個元素標簽樹中各相同層的節點中每兩個節點對應的所述實詞集合間的語義距離;
針對于每個所述Web服務集合中的Web服務的WSDL文件,所述服務器采用二分圖最佳權匹配KM算法,計算每兩個所述Web服務添加空節點后對應的兩個元素標簽樹中各相同層的節點的所有映射關系下的實詞集合間的語義距離和值中的最小值,并將該最小值除以該相同層的節點個數得到的商確定為所述兩個Web服務對應的兩個元素標簽樹中對應的相同層節點間的第一編輯距離;
根據
確定每兩個所述Web服務的WSDL文件的編輯距離L;其中,所述n為每兩個所述Web服務對應的兩個元素標簽樹中節點的層數,所述Si為所述服務器根據每兩個所述Web服務對應的兩個元素標簽樹中對應的第i層節點間的所述第一編輯距離,所述x為所述Si對應的權重因子,其為小于1的正數。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京航空航天大學,未經北京航空航天大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201310495796.8/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:散熱鋁基電路板
- 下一篇:背接觸式太陽能電池的太陽能背板
- 數據顯示系統、數據中繼設備、數據中繼方法、數據系統、接收設備和數據讀取方法
- 數據記錄方法、數據記錄裝置、數據記錄媒體、數據重播方法和數據重播裝置
- 數據發送方法、數據發送系統、數據發送裝置以及數據結構
- 數據顯示系統、數據中繼設備、數據中繼方法及數據系統
- 數據嵌入裝置、數據嵌入方法、數據提取裝置及數據提取方法
- 數據管理裝置、數據編輯裝置、數據閱覽裝置、數據管理方法、數據編輯方法以及數據閱覽方法
- 數據發送和數據接收設備、數據發送和數據接收方法
- 數據發送裝置、數據接收裝置、數據收發系統、數據發送方法、數據接收方法和數據收發方法
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置





