[發明專利]一種基于標簽的web服務聚類方法有效
| 申請號: | 201110440085.1 | 申請日: | 2011-11-30 |
| 公開(公告)號: | CN102622396A | 公開(公告)日: | 2012-08-01 |
| 發明(設計)人: | 吳健;馮怡鵬;陳亮;尹建偉;李瑩;鄧水光 | 申請(專利權)人: | 浙江大學 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 杭州裕陽專利事務所(普通合伙) 33221 | 代理人: | 江助菊 |
| 地址: | 310027 浙*** | 國省代碼: | 浙江;33 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 標簽 web 服務 方法 | ||
技術領域
本發明屬于web服務領域,尤其涉及一種基于標簽的Web服務聚類方法。
背景技術
面向服務的計算(SOC)為我們提供了一種將單一功能應用無縫聚合為大粒度增值服務的方法。如今,服務組合受到了產業界的關注,并且應用到了各個領域,比如工作流管理、金融、電子商務等等。因此如何準確發現滿足用戶需求的web服務,成為了一個重要的研究方向。Web服務是互聯網上實現某種功能或執行預先設定的流程的軟件對象集,它們在Web上發布,能被用戶發現并調用。用戶在調用服務之后,可以利用標簽對服務進行評注,標簽的形式往往是單詞或者短語,可以是對服務功能的描述或其他語義信息。
目前,服務查詢主要是利用web服務搜索引擎實現的,它是利用基于關鍵字匹配WSDL文件的方法進行查詢。WSDL(Web服務描述語言,Web?Services?Description?Language)是為描述Web服務發布的XML格式文件,描述了Web服務的公共接口。但是這種方法存在一定的缺陷,比如噪聲敏感、低召回率等問題。
發明內容
針對上述技術缺陷,本發明提出一種基于標簽的Web服務聚類方法。
為了解決上述技術問題,本發明的技術方案如下:
一種基于標簽的web服務聚類方法,包括如下步驟:
1)收集互聯網上web服務的WSDL文件和標簽信息;
2)從WSDL文件中提取web服務的特征值,所述特征值包括內容、類型、消息、端口和服務名稱;
3)對web服務的各個特征值和標簽信息進行相似度計算,并根據特征值和標簽信息的相似度值計算綜合相似度;
4)根據綜合相似度使用WTCluster算法對web服務進行聚類。作為可選方案,所述特征值內容的提取包括如下步驟:
21)建立內容特征向量:將WSDL文件的內容根據空白符進行分割,進而得到初始內容特征向量;
22)去除詞尾:利用波特詞干算法將詞干相同但后綴不同的單詞統一化;
23)噪聲過濾:在所述內容向量中,過濾兩類沒有意義的單詞,第一種是XML標簽,第二種是功能性詞匯;
判斷所述功能性詞匯的包括如下步驟,首先建立詞頻的泊松分布模型,為每個單詞w計算過估因子:
其中是通過泊松分布對w的估計詞頻,nw是實際在文本中統計的詞頻,過估因子越小,則單詞w越可能是功能性詞匯,設置閾值ΛT,過估因子小于該閾值的單詞將被認定為功能性詞匯而過濾掉,所述ΛT的選取如下:
其中,avg[Λ]是所有單詞統計詞頻nw的平均值;
24)精煉:在所述內容特征向量中,通過設置閾值移除頻率過高的單詞得到一個web服務的內容特征向量;
所述特征值內容的相似度計算包括如下步驟:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于浙江大學,未經浙江大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201110440085.1/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:鐵礦粉中硫酸根含量的測定方法
- 下一篇:一種透鏡陣列式光能收集及傳輸系統





