[發明專利]一種基于Gaussian ATM和詞嵌入的語義稀疏Web服務發現方法在審
| 申請號: | 201810345829.3 | 申請日: | 2018-04-18 |
| 公開(公告)號: | CN108712466A | 公開(公告)日: | 2018-10-26 |
| 發明(設計)人: | 田剛;劉鵬飛;孫承愛 | 申請(專利權)人: | 山東科技大學 |
| 主分類號: | H04L29/08 | 分類號: | H04L29/08;G06F17/27;G06N3/08 |
| 代理公司: | 青島智地領創專利代理有限公司 37252 | 代理人: | 陳海濱 |
| 地址: | 266590 山東省青島*** | 國省代碼: | 山東;37 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 單詞 集合 文檔 原型 用戶查詢 語義 層次結構 連續向量 嵌入的 稀疏 預處理 使用概率 特征詞匯 訓練模型 排序 嵌入 解析 詞匯 查詢 輸出 服務 | ||
1.一種基于Gaussian ATM和詞嵌入的語義稀疏Web服務發現方法,其特征在于,包括以下步驟:
步驟1:收集Web服務描述文檔,對收集的Web服務描述文檔進行解析,得到Web服務描述文檔中的特征詞匯,并對Web服務描述文檔中的特征詞匯進行預處理,得到一組原型單詞的集合;
步驟2:使用詞嵌入訓練模型Word2Vec訓練步驟1中得到的原型單詞的集合,得到原型單詞的集合中每個單詞的連續向量表示;
使用Gaussian ATM模型對步驟1中得到的原型單詞的集合進行訓練,獲得每個Web服務的層次結構;
步驟3:使用步驟2訓練得到的連續向量的集合豐富用戶查詢,得到擴展以后的用戶查詢;
利用步驟2得到的服務層次結構,使用概率排序方法,得到針對擴展之后用戶查詢所對應的查詢輸出。
2.根據權利要求1所述的一種基于Gaussian ATM和詞嵌入的語義稀疏Web服務發現方法,其特征在于,步驟1中所述的Web服務描述文檔來源于能夠被訪問的Web服務注冊中心或Web服務門戶網站。
3.根據權利要求1所述的一種基于Gaussian ATM和詞嵌入的語義稀疏Web服務發現方法,其特征在于,所述步驟1中的預處理包括去除停用詞、取得單詞詞根和擴充縮寫詞。
4.根據權利要求1所述的一種基于Gaussian ATM和詞嵌入的語義稀疏Web服務發現方法,其特征在于,所述的步驟2,其具體實現包括以下子步驟:
步驟2.1:使用Word2Vec模型訓練原型單詞的集合,得到每個單詞的連續詞嵌入表達;
步驟2.2:基于步驟2.1中得到的詞嵌入進行映射,遍歷服務描述中的每一個單詞,如果單詞在詞嵌入表達集合中,則直接使用詞嵌入代替該單詞;如果單詞不在詞嵌入表達集合中,該單詞將被丟棄;
經過多次迭代將服務描述中的單詞轉換成為詞嵌入表達,從而將服務特征表示到連續詞嵌入空間,為詞嵌入主題模型Gaussian ATM構建輸入;
步驟2.3:以步驟2.2得到的服務描述的詞嵌入表示為輸入,基于Gaussian ATM,挖掘服務知識,構建服務-標簽、標簽-主題和主題-詞嵌入分布,基于上述三個分布,建立服務-標簽-主題-詞嵌入層次模型,從而將服務組織到不同的主題。
5.根據權利要求4所述的一種基于Gaussian ATM和詞嵌入的語義稀疏Web服務發現方法,其特征在于,所述步驟2.3,具體包括以下子步驟:
步驟2.3.1:在Gaussian ATM中,每個單詞w對應的詞嵌入v(w)∈RM,其中M表示詞嵌入的長度,這樣每個單詞就被表示到一個M維的連續空間,而每個主題z就被表示成詞嵌入v上的一個多元高斯分布,其中均值為μz,協方差為Σz,以服務的詞嵌入表達作為輸入,經過Gibbs抽樣,算法運行收斂之后,通過該多元高斯分布,建立主題-詞嵌入層次;
步驟2.3.2:每個服務文檔可以當作標簽的均勻分布,它們的分布是預先可觀測的,直接利用均勻分布的計算公式可以獲得服務-標簽分布;
步驟2.3.3:每個主題屬于不同的標簽,建立標簽-主題層次的方式與步驟2.3.1類似,每個主題的先驗分布為參數為α的Dirichlet分布,以標簽的詞嵌入表達作為輸入,經過Gibbs抽樣之后得到收斂后的參數值,從而根據參數θ獲得標簽-主題分布;
步驟2.3.4:步驟2.3.3之后,單詞、詞嵌入、標簽、主題和服務文檔存在如下關系:每個單詞都有一個對應的詞嵌入,每個詞嵌入屬于不同的主題,每個主題又隸屬于不同的標簽,每個標簽又屬于不同的服務,根據上述關系,以獲得的服務-標簽、標簽-主題、主題-詞嵌入分布作為輸入,建立服務-標簽-主題-詞嵌入層次模型,從而將服務組織到不同的潛在主題。
6.根據權利要求4所述的一種基于Gaussian ATM和詞嵌入的語義稀疏Web服務發現方法,其特征在于,所述步驟3中,具體包括以下子步驟:
步驟3.1:根據查詢特征表達,使用步驟2.1訓練的連續詞嵌入表達,遍歷用戶查詢中的每一個單詞,如果單詞在詞嵌入表達集合中,則直接使用詞嵌入代替該單詞;如果單詞不在詞嵌入表達集合中,該單詞將被丟棄;將用戶查詢映射為連續表達的詞嵌入,為基于詞嵌入的查詢語義擴充和基于詞嵌入主題模型的服務發現提供支持;
步驟3.2:根據步驟3.1中獲得用戶查詢的詞嵌入表示作為輸入,并設定一個相似度閾值,遍歷輸入中的每一個詞嵌入,檢索與該詞嵌入的相似度超過預定閾值的詞嵌入,將該詞嵌入作為擴充詞保留,重復該過程直至輸入中所有的詞嵌入都被遍歷一遍,最后返回添加了擴充詞之后的用戶查詢向量;
步驟3.3:詞嵌入表達的用戶查詢將基于一種概率表達映射為同服務的相似程度,根據服務-主題-詞嵌入層次結構可以獲得詞嵌入同主題的相似度:P(e|z),每個查詢Q同主題的相似度能夠表示為公式(1):
其中zf為主題,ei為查詢中包含的詞嵌入;
同樣根據服務-主題-詞嵌入層次結構,可以獲得主題同服務的相似度:P(z|t),每個查詢Q同服務ti的相似程度如公式(2)所示:
其中Q為查詢,ti為標簽,zf為潛在特征,ek為查詢包含的詞嵌入,Z為主題的數目;的取值表示查詢和服務的相似程度,將被用來為用戶提供服務匹配和排序的依據;
最后,計算每個查詢Q同服務sj的相似程度P(Q|sj),該概率的大小將被用來為用戶提供服務匹配和排序的依據;
其中Q為查詢,sj為服務,ti為標簽,zf為潛在特征,ek為查詢包含的詞嵌入,Z為主題的數目,T為標簽的數量;P(Q|sj)的取值表示查詢和服務的相似程度,將被用來為用戶提供服務匹配和排序的依據。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于山東科技大學,未經山東科技大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810345829.3/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:大數據平臺監控方法
- 下一篇:一種實現物聯網實時高速穩定高并發的交互方法





