[發明專利]一種基于Mashup服務功能特征表示與密度峰值檢測的Web數據聚類方法有效
| 申請號: | 202010127323.2 | 申請日: | 2020-02-28 |
| 公開(公告)號: | CN111475607B | 公開(公告)日: | 2022-06-17 |
| 發明(設計)人: | 陸佳煒;吳涵;趙偉;馬超治;程振波;徐俊;肖剛 | 申請(專利權)人: | 浙江工業大學 |
| 主分類號: | G06F16/33 | 分類號: | G06F16/33;G06F16/35;G06F40/289;G06F40/30;G06F40/247;G06K9/62 |
| 代理公司: | 杭州斯可睿專利事務所有限公司 33241 | 代理人: | 王利強 |
| 地址: | 310014 浙江省*** | 國省代碼: | 浙江;33 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 mashup 服務 功能 特征 表示 密度 峰值 檢測 web 數據 方法 | ||
1.一種基于Mashup服務功能特征表示與密度峰值檢測的聚類方法,其特征在于,包括以下步驟:
第一步、對所有需要特征表示的Mashup服務數據進行預處理;
第二步、基于預處理后的Mashup服務數據,進行功能名詞提取操作;
第三步、對于每條Mashup服務的功能名詞集合FS,對每個功能名詞的語義權重進行語義關聯計算;
所述第三步的過程如下:
步驟(3.1)計算所有功能名詞集合FS的平均長度LAvg,計算公式如下:
其中,Set(FS)表示存放FS的集合,|Set(FS)|則是該集合的長度,進行步驟(3.2);
步驟(3.2)遍歷各Mashup服務信息,包括對應的功能名詞集合FS,計算名詞間語義關聯權重對最終語義權重的影響因子w,若當前FS的集合長度len(FS)不等于LAvg,那么影響因子w公式如下所示:
否則,w設為默認值0.5,進行步驟(3.3);
步驟(3.3)遍歷當前FS中的名詞,計算第i個功能名詞與其他名詞之間的語義關聯權重FSimi,計算公式如下:
其中,WordNet(ni,nj)表示第i個功能名詞與第j個功能名詞之間的語義相似度,|FS|表示功能名詞集合FS中所包含的名詞個數,進行步驟(3.4);
步驟(3.4)在當前服務的服務標簽中,計算出與功能名詞ni語義相似性最大的值,作為ni的語義權重校正量TSimi,其中,語義相似性同樣采用WordNet函數計算,進行步驟(3.5);
步驟(3.5)計算出功能名詞ni的最終語義權重SWi,并存于當前服務功能語義權重字典SimDic中,其中,SWi計算公式如下:
SWi=w×Simi+(1-w)×TSimi,w即為步驟(3.2)計算的影響因子,進行步驟(3.6);
步驟(3.6)只將語義權重較高的前LAvg個單詞存放于當前字典SimDic中,剔除其他單詞,進行步驟(3.7);
步驟(3.7)判斷當前FS中的名詞是否遍歷完成,若否,則返回步驟(3.3),否則,進行步驟(3.8);
步驟(3.8)判斷Mashup服務是否遍歷完成,若否,則返回步驟(3.2),否則,結束;
第四步、基于第三步的語義權重計算結果,結合TF-IDF算法與Word2Vec模型,進行Mashup語義特征向量的表示;
第五步、對于所有參與聚類的Mashup語義特征向量,進行密度信息的計算,密度信息包括局部密度、向量間距離和較高密度最近距離;
第六步、基于第五步計算的密度信息,從所有Mashup語義特征向量中,篩選出聚類中心的候選點;
第七步、對第六步所得的聚類中心候選點,進一步篩選出最為合適的K個初始聚類中心,進行K-means聚類。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于浙江工業大學,未經浙江工業大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010127323.2/1.html,轉載請聲明來源鉆瓜專利網。





