[發(fā)明專利]一種基于共生注意力表示學(xué)習(xí)的服務(wù)分類方法有效
| 申請?zhí)枺?/td> | 202110249579.5 | 申請日: | 2021-03-08 |
| 公開(公告)號: | CN112836054B | 公開(公告)日: | 2022-07-26 |
| 發(fā)明(設(shè)計)人: | 鄢萌;唐斌;吳云松;張小洪;徐玲;任海軍;楊丹 | 申請(專利權(quán))人: | 重慶大學(xué) |
| 主分類號: | G06F16/35 | 分類號: | G06F16/35;G06N3/04;G06N3/08 |
| 代理公司: | 重慶晟軒知識產(chǎn)權(quán)代理事務(wù)所(普通合伙) 50238 | 代理人: | 王海鳳 |
| 地址: | 400044 *** | 國省代碼: | 重慶;50 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 共生 注意力 表示 學(xué)習(xí) 服務(wù) 分類 方法 | ||
1.一種基于共生注意力表示學(xué)習(xí)的服務(wù)分類方法,其特征在于:包括如下步驟:
S100:從公開數(shù)據(jù)集中選取部分web服務(wù)作為訓(xùn)練集,訓(xùn)練集中的每個web服務(wù)都有確定的服務(wù)類別,對訓(xùn)練集中包含的所有服務(wù)類別進(jìn)行順序編號;
S200:從該訓(xùn)練集中任選一個Web服務(wù)作為訓(xùn)練樣本,該訓(xùn)練樣本包括服務(wù)描述和服務(wù)名稱;
S300:對每個訓(xùn)練樣本從其服務(wù)描述中提取服務(wù)信息詞,具體步驟如下:
S310:設(shè)服務(wù)描述中有E個原單詞,對E個原單詞進(jìn)行標(biāo)記化處理,此處的“標(biāo)記化處理”是指將每個單詞用空格隔開;
S320:根據(jù)英語停用詞列表刪除E個原單詞中的停用詞,剩余的原單詞個數(shù)為Z,并對Z個原單詞進(jìn)行詞干提取,如果詞干出現(xiàn)重復(fù),則只保留一個,最終得到G個單詞詞干;
S330:計算G個單詞詞干的信息增益得分,具體公式如下:
其中,N表示該訓(xùn)練集中服務(wù)類別的數(shù)量,Ck表示類別,P(Ck)表示類別Ck的概率,P(w)表示單詞詞干w存在的概率,表示單詞詞干w不存在的概率,P(Ck|w)表示存在單詞詞干w時類別Ck的條件概率,表示不存在單詞詞干w時類別Ck的條件概率;
其中,各項計算表達(dá)式如下:
其中,num(Ck)表示在類別Ck上的服務(wù)數(shù)量,表示所有類別包含的服務(wù)總數(shù),表示在類別Ci中的服務(wù)描述中帶有單詞詞干w的服務(wù)數(shù)量,表示所有類別包含的服務(wù)總數(shù)中的服務(wù)描述中帶有單詞詞干w的服務(wù)總數(shù),為服務(wù)描述中未包含單詞詞干w的服務(wù)總數(shù);
S340:根據(jù)信息增益得分將G個單詞詞干進(jìn)行降序排列,選擇前J個單詞詞干作為服務(wù)信息詞的提取結(jié)果;
S400:對每個訓(xùn)練樣本構(gòu)建描述特征矩陣D,具體步驟如下:
S410:設(shè)服務(wù)描述中包含的單詞數(shù)量為n1,將服務(wù)描述作為BERT模型的輸入,輸出為服務(wù)描述的單詞序列和長度為n1的k1維服務(wù)描述嵌入矩陣,具體表達(dá)式如下:
Y1=fbert_seq(X1)
其中,Y1表示服務(wù)描述嵌入矩陣,X1表示服務(wù)描述;
S420:采用雙向LSTM提取服務(wù)描述特征,具體步驟如下:
S421:計算所述服務(wù)描述中第i個單詞的隱藏狀態(tài)hi,具體表達(dá)式如下:
其中,ai是服務(wù)描述嵌入矩陣Y1中第i個單詞的k1維詞向量,hi是LSTM中第i個單詞的隱藏狀態(tài),表示第i個單詞前向傳播的隱藏狀態(tài),表示第i個單詞后向傳播的隱藏狀態(tài),表示第i個單詞的前一個單詞的前向傳播存儲單元,表示第i個單詞的前一個單詞的前向傳播隱藏狀態(tài),表示第i個單詞的后一個單詞的后向傳播存儲單元,表示第i個單詞的后一個單詞的后向傳播隱藏狀態(tài);
S422:重復(fù)S421,計算得到服務(wù)描述中所有單詞的隱藏狀態(tài),并進(jìn)行拼接,得到服務(wù)描述的特征矩陣D,具體表達(dá)式如下:
S500:對每個訓(xùn)練樣本構(gòu)建服務(wù)信息詞特征矩陣I,具體步驟如下:
S510:將步驟S340得到的J個服務(wù)信息詞作為BERT模型的輸入,輸出為長度為n2的k2維服務(wù)信息詞嵌入矩陣Y2,具體表達(dá)式如下:
Y2=fbert_seq(X2)
其中,Y2表示服務(wù)信息詞嵌入矩陣,X2表示服務(wù)信息詞;
S520:采用2-D CNN卷積函數(shù)提取服務(wù)信息詞的特征,具體步驟如下:
S521:為服務(wù)信息詞嵌入矩陣Y2增加一個額外維度得到Y(jié)2′,即此時的卷積核為其中,1表示額外的維度,p1表示卷積核包含的信息詞向量的維度,q1表
示卷積核包含的信息詞的個數(shù);
S522:計算Y2′中服務(wù)信息詞的局部特征ci′,j′,1,表達(dá)式如下:
其中,eu,v,1表示服務(wù)信息詞中的第u個詞相對應(yīng)的v維詞向量,u∈[i,i+p1-1],v∈[j,j+q1-1],b表示偏置項,i′表示Y2′中的信息詞,j′表示信息詞i′對應(yīng)的維度,j′=1,2,...,k2;
S523:應(yīng)用數(shù)量為t的卷積核和卷積核數(shù)量為t時的服務(wù)信息詞的局部特征得到局部特征ci″,j″,1,具體表達(dá)式如下:
其中,ci″,j″,1表示卷積核數(shù)量為1時的服務(wù)信息詞的局部特征,p2為卷積核數(shù)量為1時卷積核包含的信息詞向量的維度,q2為卷積核數(shù)量為1時的卷積核包含的信息詞的個數(shù);
S524:壓縮Y2′中額外的一個維度,得到Y(jié)2中服務(wù)信息詞的局部特征ci″,j″,拼接所有局部特征得到信息詞特征矩陣I,表達(dá)式如下:
S600:對每個訓(xùn)練樣本構(gòu)建服務(wù)名稱特征矩陣S,具體步驟如下:
S610:將服務(wù)名稱作為BERT模型的輸入,輸出為長度為n3的k3維服務(wù)名稱嵌入矩陣Y3,具體表達(dá)式如下:
Y3=fbert_seq(X3)
其中,Y3表示服務(wù)名稱嵌入矩陣,X3表示服務(wù)名稱;
S620:采用2-D CNN提取服務(wù)名稱的特征,具體步驟如下:
S621:為服務(wù)名稱嵌入矩陣Y3增加一個額外維度得到Y(jié)3′,即此時的卷積核為其中,1表示額外的維度,p1表示卷積核包含的服務(wù)名稱詞向量的維度,q1表示卷積核包含的服務(wù)名稱中詞的個數(shù);
S622:計算Y3′中服務(wù)名稱的局部特征di′,j′,1,表達(dá)式如下:
其中,su,v,1表示服務(wù)名稱中的第u個詞相對應(yīng)的v維詞向量,u∈[i,i+p1-1],v∈[j,j+q1-1],b表示偏置項,i′表示Y3′中的服務(wù)名稱,j′表示信息詞i′對應(yīng)的維度,j′=1,2,...,k2;
S623:應(yīng)用數(shù)量為t的卷積核和卷積核數(shù)量為t時的服務(wù)名稱的局部特征得到局部特征di″,j″,1,具體表達(dá)式如下:
其中,di″,j″,1表示卷積核為1時的服務(wù)名稱的局部特征,p2為卷積核為1時的包含服務(wù)名稱詞向量的維度,q1為卷積核為1時的卷積核包含的服務(wù)名稱中詞的個數(shù);
S624:壓縮Y3′中額外的一個維度,得到Y(jié)3中服務(wù)名稱的局部特征di″,j″,拼接所有局部特征得到服務(wù)名稱特征矩陣S,表達(dá)式如下:
S700:將每個訓(xùn)練樣本對應(yīng)的信息詞特征矩陣I和名稱特征矩陣S進(jìn)行融合,獲得增強數(shù)據(jù)特征矩陣A,表達(dá)式如下;
S800:對每個訓(xùn)練樣本計算服務(wù)特征相關(guān)矩陣F,具體表達(dá)式如下:
F=tanh(ATUD)
其中,服務(wù)描述特征矩陣D∈Rd*p,服務(wù)增強數(shù)據(jù)矩陣參數(shù)矩陣U∈Rd*d,服務(wù)特征相關(guān)矩陣F∈Rp*q;
S900:對每個訓(xùn)練樣本計算rA和rD,具體步驟如下:
S910:對服務(wù)特征相關(guān)矩陣F執(zhí)行最大池化操作,得到服務(wù)增強數(shù)據(jù)和服務(wù)描述具體表示如下:
S920:計算的服務(wù)語義向量gA和的服務(wù)語義向量gD,具體表達(dá)式如下:
其中,gA∈Rp,gD∈Rq
S930:對得到的gA和gD服務(wù)語義向量采用softmax激活函數(shù)進(jìn)行轉(zhuǎn)化,得到服務(wù)增強數(shù)據(jù)注意力向量aA和服務(wù)描述注意力向量aD,具體表達(dá)式分別如下:
aA=softmax(gA)
aD=softmax(gD)
其中,aA∈Rp,aD∈Rq;
S940:計算aA的服務(wù)表示向量rA和aD的服務(wù)表示向量rD,具體表達(dá)式分別如下:
rA=A*aA
rD=D*aD
其中,A為增強數(shù)據(jù)特征矩陣,D為服務(wù)描述特征矩陣,aA表示服務(wù)增強數(shù)據(jù)注意力向量,aD表示服務(wù)描述注意力向量;
S1000:對每個訓(xùn)練樣本計算相對應(yīng)的預(yù)測向量L,其中,L為N維的向量,L中包含的所有概率值是按照服務(wù)類別的順序編號進(jìn)行排列,選擇其中最大的概率值所對應(yīng)的服務(wù)類別作為最終的服務(wù)類別預(yù)測結(jié)果,L具體表達(dá)式如下:
L=softmax(ffc(rA+rD))
其中,ffc表示全連接層神經(jīng)網(wǎng)絡(luò);
S1010:根據(jù)S1000的結(jié)果采用梯度下降反向傳播的方式對S200-S800步驟中所用到的參數(shù)進(jìn)行更新,當(dāng)訓(xùn)練達(dá)到預(yù)設(shè)的最大迭代次數(shù),模型訓(xùn)練完畢,得到訓(xùn)練好的服務(wù)分類模型;
S1020:對一個未知類別的待預(yù)測web服務(wù)進(jìn)行服務(wù)分類預(yù)測,具體步驟如下:
S1030:采用S300的方法從待預(yù)測服務(wù)描述中提取服務(wù)信息詞;
S1040:采用S400的方法構(gòu)建待預(yù)測描述特征矩陣D’;
S1050:采用S500的方法構(gòu)建待預(yù)測服務(wù)信息詞特征矩陣I’;
S1060:采用S600的方法構(gòu)建待預(yù)測服務(wù)名稱特征矩陣S’;
S1070:采用S700的方法得到待預(yù)測增強數(shù)據(jù)特征矩陣A’;
S1080:采用S800的方法計算待預(yù)測相關(guān)矩陣F’;
S1090:采用S900的方法計算待預(yù)測的rA’和rD’;
S1100:采用S1000的方法計算預(yù)測向量L’,將其中的最大概率值所對應(yīng)的服務(wù)類別作為待預(yù)測Web服務(wù)的預(yù)測類別。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于重慶大學(xué),未經(jīng)重慶大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110249579.5/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 一種海洋共生體的暫養(yǎng)、共生生物分離純化的方法
- 一種共生菌水產(chǎn)養(yǎng)殖法
- 通過篩選多種宿主-共生生物聯(lián)合體的共生體選擇
- 一種基于處理器性能監(jiān)控的虛擬機(jī)共生調(diào)度方法
- 一種在體外研究昆蟲共生菌經(jīng)卵垂直傳播的方法
- 用于制備具有人工內(nèi)共生體的宿主細(xì)胞的系統(tǒng)
- 土家織錦組織類型判定方法、裝置及電子設(shè)備
- 一種昆蟲內(nèi)共生菌顆粒的純化方法、全基因組提取方法及應(yīng)用
- 服務(wù)守護(hù)方法、裝置及可讀存儲介質(zhì)
- 促進(jìn)植物根系與共生菌共生的蛋白、分離的核酸分子及其應(yīng)用培育方法





