[發(fā)明專利]基于主題模型聚類的Web API推薦方法有效
| 申請?zhí)枺?/td> | 202110508530.7 | 申請日: | 2021-05-11 |
| 公開(公告)號: | CN113343078B | 公開(公告)日: | 2022-07-15 |
| 發(fā)明(設計)人: | 陸佳煒;鄭嘉弘;趙偉;馬超治;徐俊;張元鳴;肖剛 | 申請(專利權(quán))人: | 浙江工業(yè)大學 |
| 主分類號: | G06F16/9535 | 分類號: | G06F16/9535;G06F16/35;G06F40/216;G06F40/284;G06K9/62 |
| 代理公司: | 杭州斯可睿專利事務所有限公司 33241 | 代理人: | 王利強 |
| 地址: | 310014 浙江省*** | 國省代碼: | 浙江;33 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 主題 模型 web api 推薦 方法 | ||
1.一種基于主題模型聚類的Web API推薦方法,其特征在于,所述方法包括如下步驟:
第一步:根據(jù)上下文信息計算單詞的語義權(quán)重信息從而得到文檔-單詞語義權(quán)重信息矩陣D;
第二步:統(tǒng)計單詞共現(xiàn)信息,從而計算出單詞的上下文SPPMI矩陣信息;
第三步:基于第一步,第二步得到Mashup服務文檔單詞的文檔-單詞語義權(quán)重信息矩陣D,單詞的上下文SPPMI矩陣M,通過分解M得到詞嵌入信息矩陣,進一步將文檔-單詞語義權(quán)重信息矩陣和單詞的上下文SPPMI矩陣M進行結(jié)合,計算服務的主題信息;
第四步:將第三步得到的Mashup服務主題特征,作為譜聚類的輸入進行聚類,通過對所有數(shù)據(jù)點組成的圖進行切圖,讓切圖后不同的子圖間邊權(quán)重和盡可能的低,而子圖內(nèi)的邊權(quán)重和盡可能的高,從而達到聚類的目的;
第五步:結(jié)合GBDT和FM方法對Web API服務進行預測推薦,步驟如下:
5.1利用第三步對Mashup服務需求Mre進行主題模型建模,獲取服務需求Mre的文檔-主題矩陣Tre作為Mashup服務主題特征;之后,對Web API服務語料APIA進行建模,獲取APIA的文檔-主題矩陣Tapi作為Web API服務主題特征;
5.2設置一個為空的set類型的集合Um,set集合為只包含唯一值的集合,設置sim為0,對第四步最終輸出的服務類簇Mset進行遍歷處理,每次遍歷的簇設置為C,將Mashup服務類簇主題功能特征向量的平均值作為每一個類的簇中心,即計算C中所有向量的平均值,將Tre中的所有向量分別與該平均值利用余弦公式進行相似度計算,并將該相似度計算結(jié)果之和設置為Temp,對sim與Temp的大小進行判斷,若Temp大于sim,則將Um設置為C,sim設置為Temp,遍歷結(jié)束,此時的Um即為與Mashup服務需求Mre最相近的類簇;
余弦相似度計算公式如下所示:
其中Vi與Vj分別表示計算相似度的兩個向量,T表示矩陣倒置運算,‖V‖表示向量的模運算;
5.3設置Setapi為候選的Web API集合,將步驟5.2輸出的Um與Web API服務主題特征Tapi作為輸入,統(tǒng)計Mashup服務類簇中所有Mashup服務所調(diào)用過的Web API服務,將其對應的Tapi中的主題特征存入Setapi中,獲取候選API集合;
5.4設置Pop為Web API服務的流行度,以Web API服務語料A為輸入,計算Web API服務的流行度,流行度計算公式如下:
pop(api)為API的流行度,其表示W(wǎng)eb API在不同類簇中的流行程度,其中use(api)表示該Web API被數(shù)據(jù)集中Mashup服務使用過的次數(shù),Cuse(api)表示聚類后的Mashup服務類簇中該Web API被調(diào)用過的次數(shù),通過計算Web API的類簇中流行度,可以有效地反應WebAPI的可用性;
設置Co為Web API服務的共現(xiàn)度信息,計算Web API服務的共現(xiàn)度,共現(xiàn)度計算公式如下:
Co(apii,apij)為Web API服務之間的共現(xiàn)度,其表示W(wǎng)eb API之間可組合性,其中M(apii,apij)表示同時調(diào)用Web API服務i和j的Mashup服務的數(shù)量,O(apii)表示調(diào)用過apii的Mashup服務數(shù)量;
設置AvCo為Web API服務的平均共現(xiàn)度信息,平均共現(xiàn)度信息計算公式如下:
AvCo(apii)為平均共現(xiàn)度信息,其中NO(apij)表示和apii間共現(xiàn)度不為0的Web API數(shù)量,根據(jù)平均共現(xiàn)度反應了Web API的可組合性;
5.5以步驟5.1中計算得到的Mashup服務主題特征Tre與Web API服務主題特征Tapi,步驟5.3中計算得到的候選Web API集合Setapi,5.4步驟中得到的Web API服務的流行度Pop與Web API服務的平均共現(xiàn)度AvCo作為參數(shù),將Mashup服務名稱與Web API服務名稱One-Hot化,組合形成原始特征向量Vec(Idm,Ida,Tm,Ta,Pop,AvCo),其中Idm表示Mashup服務名稱的One-Hot編碼,Ida表示W(wǎng)eb API服務名稱的One-Hot編碼,Tm表示Mashup服務的主題功能特征,為Mashup服務描述對應的文檔-主題矩陣Tre中的向量,Ta表示W(wǎng)eb API的主題功能特征,為Web API服務描述對應的文檔-主題矩陣Tapi中的向量,Pop和AvCo為對應Web API服務的流行度信息以及平均共現(xiàn)度信息,在原始特征向量Vec綜合了功能特征信息和非功能特征信息,可以更全面的考慮Web API服務的質(zhì)量,提高推薦的可靠性,One-Hot編碼利用與分類狀態(tài)數(shù)量相同的狀態(tài)寄存器來對所有狀態(tài)進行編碼,每個狀態(tài)都有獨立的寄存器位,并且在任意時候只有一位有效,表示形式為只有一個分量為1,其余分量都為0的二進制向量;
5.6設置轉(zhuǎn)換后的特征向量為TranVec,以步驟5.5中獲得的原始特征向量Vec為輸入,基于梯度提升決策樹GBDT進行特征轉(zhuǎn)換,GBDT是一種功能強大的回歸和分類模型,GBDT模型由若干棵獨立的決策樹組成,每棵樹都由之前的樹的殘差進行訓練,GBDT不斷地進行迭代,每一次迭代都會產(chǎn)生一個增益較大的分類特征,每個節(jié)點的分裂可以視作為特征選擇的操作,多棵樹以及多層節(jié)點的結(jié)構(gòu)可以對原始特征進行自動選擇和組合,進而生成新的特征向量,通過GBDT模型可以自動對特征選擇,組合和轉(zhuǎn)換,從而提高后續(xù)推薦模型的學習能力,通過GBDT對原始特征向量進行轉(zhuǎn)換得到維度較低的轉(zhuǎn)換后的特征向量集合TranVec,向量中包含所有葉節(jié)點的序號;
5.7對步驟5.6得到的TranVec進行One-Hot編碼處理,獲得向量集合OTvec;
5.8以OTvec為輸入,輸入到因子分解機FM模型中對Web API服務的得分進行預測;
FM模型能較好解決大規(guī)模稀疏數(shù)據(jù)下的特征組合問題,能適應各種輸入,拓展性更強,能在原始特征上進行高階特征交互,使用二階FM模型對API服務進行推薦,其定義如下:
x為特征向量,xi為向量x的第i個分量,n為特征向量的維度,y(x)為預測的得分,w0為全局偏置,w為特征向量每個分量對應權(quán)重的集合,wi為特征向量第i個分量對應的權(quán)重,部分為傳統(tǒng)的線性模型,vei是維度為k的向量,k是超參數(shù),用來定義矩陣分解的維度;vei,vej表示向量vei和vej的點積對應的實數(shù)值,其代表特征向量中第i個與第j個特征的相互作用,將該實數(shù)值分解為兩個向量點積,能在高稀疏度環(huán)境下考慮不同特征之間的聯(lián)系。
該專利技術資料僅供研究查看技術是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于浙江工業(yè)大學,未經(jīng)浙江工業(yè)大學許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110508530.7/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 提供共享Web模塊的系統(tǒng)和方法
- 管理環(huán)球網(wǎng)網(wǎng)頁中的環(huán)球網(wǎng)媒體的系統(tǒng)及其實現(xiàn)方法
- 一種WEB業(yè)務實現(xiàn)系統(tǒng)、裝置及方法
- 高速緩存廣播信息的方法和裝置
- 基于QoS指標和Web服務輸出參數(shù)的Web服務組合方法和裝置
- Web托管審查方法、裝置及Web托管系統(tǒng)
- 用于信息處理和Web瀏覽歷史導航的方法和設備及電子裝置
- 用于將web站點轉(zhuǎn)換為目標web app站點的方法和裝置
- 用于防護WEB漏洞的方法和設備
- 一種Web攻擊報告生成方法、裝置、設備及計算機介質(zhì)





