[發明專利]一種基于Mashup服務功能特征表示與密度峰值檢測的Web數據聚類方法有效
| 申請號: | 202010127323.2 | 申請日: | 2020-02-28 |
| 公開(公告)號: | CN111475607B | 公開(公告)日: | 2022-06-17 |
| 發明(設計)人: | 陸佳煒;吳涵;趙偉;馬超治;程振波;徐俊;肖剛 | 申請(專利權)人: | 浙江工業大學 |
| 主分類號: | G06F16/33 | 分類號: | G06F16/33;G06F16/35;G06F40/289;G06F40/30;G06F40/247;G06K9/62 |
| 代理公司: | 杭州斯可睿專利事務所有限公司 33241 | 代理人: | 王利強 |
| 地址: | 310014 浙江省*** | 國省代碼: | 浙江;33 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 mashup 服務 功能 特征 表示 密度 峰值 檢測 web 數據 方法 | ||
一種基于Mashup服務功能特征表示與密度峰值檢測的聚類方法,包括以下步驟:第一步、對所有需要特征表示的Mashup服務數據進行預處理;第二步、進行功能名詞提取操作;第三步、對每個功能名詞的語義權重進行語義關聯計算;第四步、結合TF?IDF算法與Word2Vec模型,進行Mashup語義特征向量的表示;第五步、對于所有參與聚類的Mashup語義特征向量,進行密度信息的計算;第六步、從所有Mashup語義特征向量中,篩選出聚類中心的候選點;第七步、進一步篩選出最為合適的K個初始聚類中心,進行K?means聚類。本發明能夠有效表示Mashup服務的功能特征,增強Mashup服務的聚類性能。
技術領域
本發明涉及Web環境中的Mashup服務數據聚類領域,具體涉及一種基于Mashup服務功能特征表示與密度峰值檢測的聚類方法。
背景技術
Mashup技術作為Web 2.0時代的核心技術之一,可以通過組合多種不同功能的WebAPI服務,實現異構資源的整合。這一便捷高效的開發技術一經問世,便受到了廣大軟件開發人員的青睞,許多的組織機構也紛紛將自己開發的Mashup服務、數據資源發布到互聯網上供用戶調用。然而,隨著互聯網上的Mashup服務資源的不斷增長,如何幫助用戶快速定位滿足自身需求的Mashup服務成為一個亟待解決的問題。此外,由于目前大多數Mashup服務缺乏規范性的WSDL文檔以及相關服務屬性說明,這也在一定程度上增加了對服務功能信息提取的難度。
為了能夠解決上述問題,許多的研究開始基于LDA模型對Mashup服務進行面向功能主題的聚類,或者利用TF-IDF、Word2Vec等模型對服務描述文本構造特征向量完成聚類,例如,Liu等人設計了一種基于監督LDA的集成聚類模型用于改進聚類效果。Shi等人結合Word2Vec和LDA,設計出一種增強LDA模型,用于生成高質量的詞向量模型,從而優化Mashup服務聚類性能。Gao等人將每個Mashup服務描述文本轉化為TF-IDF向量進行表示,再通過K-means算法對這些TF-IDF向量進行聚類。然而,因為大多數Mashup服務的描述文本都存在內容簡短、功能特征模糊等問題,所以對于LDA及其改進模型而言,提升聚類精度的最大局限在于缺乏優質的訓練語料。但如果僅從TF-IDF技術入手解決服務功能特征表示的問題,又會忽略服務描述中的語義信息。此外,現有的大多數研究工作都是將K-means算法或其改進算法作為Mashup服務聚類的實現,但是這類聚類方案還未對K-means初始聚類中心選擇問題提出一種成熟有效的解決方法。
2014年Rodriguez等人提出了一種密度峰值聚類(DPC)算法,為聚類中心的選擇問題提供了解決思路,其核心思想在于通過統計每個數據點在截斷距離dc范圍內的數據點個數來求得局部密度ρ,進而結合數據點與較高密度點的最近距離δ這個屬性來繪制出決策圖,最后使用決策圖快速的確定聚類中心。DPC算法的思想雖然簡明高效,但是在實際應用中還是存在一些問題:(1)聚類效果十分依賴于截斷距離的選??;(2)數據量大時,可能無法輕易的從決策圖中挑出合適的聚類中心點。因此,若能對此類問題進行改進,并應用于Mashup服務聚類場景中,也將有助于提升聚類的整體性能。
發明內容
為了能夠有效表示Mashup服務的功能特征,增強Mashup服務的聚類性能。本發明提出了一種基于Mashup服務功能特征表示與密度峰值檢測的聚類方法。該方法首先將Mashup數據進行預處理,接著,對服務描述中的功能名詞進行精準定位以及語義關聯計算。在此基礎上,結合TF-IDF以及Word2Vec模型構造出能夠體現Mashup服務功能特征的語義特征向量;在得到每個Mashup服務的語義特征向量后,方法又對傳統DPC算法中,局部密度的計算方式進行了重新定義,使得密度分布更加合理。進一步,方法對每個聚類單元的密度信息進行了綜合評估計算,選出最為合適的K個初始聚類中心,作為K-means算法輸入,實現聚類。
為了解決上述技術問題本發明所采用的技術方案是:
一種基于Mashup服務功能特征表示與密度峰值檢測的聚類方法,包括以下步驟:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于浙江工業大學,未經浙江工業大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010127323.2/2.html,轉載請聲明來源鉆瓜專利網。





