[發明專利]云計算模式中融合詞嵌入和非負矩陣分解技術的服務建模方法在審
| 申請號: | 202110097169.3 | 申請日: | 2021-01-25 |
| 公開(公告)號: | CN112836490A | 公開(公告)日: | 2021-05-25 |
| 發明(設計)人: | 陸佳煒;趙偉;鄭嘉弘;徐俊;張元鳴;肖剛 | 申請(專利權)人: | 浙江工業大學 |
| 主分類號: | G06F40/216 | 分類號: | G06F40/216;G06K9/62 |
| 代理公司: | 杭州斯可睿專利事務所有限公司 33241 | 代理人: | 王利強 |
| 地址: | 310014 浙江省*** | 國省代碼: | 浙江;33 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 計算 模式 融合 嵌入 矩陣 分解 技術 服務 建模 方法 | ||
1.一種云計算模式中融合詞嵌入和非負矩陣分解技術的服務建模方法,其特征在于,所述方法包括以下步驟:
第一步:統計每個Mashup服務中單詞詞頻信息,即單詞出現的次數,構建文檔-詞頻關系矩陣D;
第二步:統計單詞共現信息,從而計算出SPPMI矩陣信息,步驟如下:
2.1統計詞共現信息,將整個服務描述文檔作為滑動窗口的長度,計算每個單詞和其他單詞在上下文中共同出現的次數;
2.2點互信息PMI計算,當兩個單詞在文本中共現概率越大時,單詞間的相關性就越強,PMI計算公式如下所示:
x和y表示兩個單詞,P(x,y)表示單詞x和y共現的概率,P(x)表示單詞x在上下文中出現概率,根據單詞wj和其上下文單詞wc在語料庫中的實際共現次數,可以計算出兩者之間的PMI值:
#(wj,wc)表示單詞wj和上下文單詞wc在語料庫中的實際共現次數,E為上下文單詞對共現的總次數,#(wj)為單詞wj和其他單詞共現的次數,Voc表示語料庫,即不重復單詞的集合;
2.3計算偏移正點互信息值矩陣SPPMI,SPPMI矩陣通過PMI值計算,SPPMI矩陣的計算方式為:
SPPMI(wj,wc)=max(PMI(wj,wc)-logκ,0)
其中κ為負采樣系數,通過上述公式得到單詞的上下文SPPMI矩陣M;
第三步:基于第一步,第二步得到Mashup服務文檔單詞的詞頻信息矩陣D,單詞的上下文SPPMI矩陣M,通過分解M得到詞嵌入信息矩陣,進一步將上述兩種信息進行結合,計算服務的主題信息,步驟如下:
3.1通過由第一步給定全局文檔-單詞關系矩陣D,通過NMF將其分解為文檔-主題矩陣θ和主題-單詞矩陣Z乘積,分解矩陣D的目標函數表示為;
subject to:θ≥0 and Z≥0,θ∈RNxK,Z∈RVxK
其中代表L2范數,N表示Mashup文檔數量,K表示文檔的主題數量,V表示語料庫單詞的數量,R表示實數集,上標T表示矩陣轉置,NMF是在矩陣中所有元素均為非負數約束條件之下,將一個非負矩陣表示為另外兩個非負矩陣乘積方式的矩陣分解方法;
3.2通過第一步,第二步計算得到單詞的上下文SPPMI矩陣M,分解矩陣M引入詞嵌入信息,分解M的目標函數如下所示:
S是一個額外的對稱因子,用于M的近似求解,W為單詞的詞嵌入矩陣;
3.3利用Mashup服務文檔和單詞間的關系,可以發現主題信息,通過文檔內單詞上下文的共現信息,可以學習到詞嵌入信息;但是這兩個部分并不相互孤立,語義相關的單詞屬于相似的主題,在嵌入空間中也很接近;單詞嵌入與它們的主題相關,關系的目標函數如下所示:
3.4結合步驟3.1,3.2和3.3,得到主題模型的目標函數:
subject to:θ≥0 and Z≥0
求解該目標函數,使用矩陣跡運算將上述公式展開:
J(θ,Z,W,S,A)=λdTr((D-θZT)(D-θZT)T)+λwTr((M-WSWT)(M-WSWT)T)+λtTr((Z-WAT)(Z-WAT)T)
其中J(θ,Z,W,S,A)為J4在θ,Z,W,S,A參數下的展開形式,進一步運算得到以下公式:
J(θ,Z,W,S,A)=λdTr(DDT-2DZθT+θZTZθT)+λwTr(MMT-2MWSWT+WSWTWSWT)+λtTr(ZZT-2ZAWT+WATAWT)
Tr表示矩陣求跡,λd,λw和λt為不同部分的權重系數,用于調整各部分計算的誤差對結果的影響,根據正則化約束得到以下目標函數:
其中α,β,γ,ω為正則化參數,避免過擬合;為使目標函數最小化,對上述目標函數求偏導得到以下公式:
令α⊙θ=0,β⊙Z=0,γ⊙W=0,ω⊙A=0,⊙表示阿達馬乘積,即矩陣對應位置的乘積,利用阿達馬乘積,令上述公式偏導為0,進一步得到以下等式方程:
-(DZ)⊙θ+(θZTZ)⊙θ+α⊙θ=0
-(λdDTθ+λtWAT)⊙Z+(λdZθTZ+λtZ)⊙Z+β⊙Z=0
-2(λwMWS+λtZA)⊙W+(λtWATAW+2λwWSWTWS)⊙W+γ⊙W=0
-(ZTW)⊙A+(AWTW)⊙A+ω⊙)A=0
進一步更新參數:
通過上述參數更新方式,求解出Mashup服務文檔-主題矩陣θ和主題-單詞矩陣Z,詞嵌入矩陣W,主題嵌入矩陣A。
2.如權利要求1所述的云計算模式中融合詞嵌入和非負矩陣分解技術的服務建模方法,其特征在于,所述2.1的過程如下:
2.1.1對于當前Mashup服務,計算該Mashup服務描述文檔長度Len,設定滑動窗口長度為Len;
2.1.2統計Mashup服務描述文檔中單詞和其他單詞的共現情況,若當前單詞的上下文單詞,即該單詞前后的單詞,在滑動窗口Len的距離內,則該單詞和其在滑動窗口內的上下文單詞共現次數加1;
2.1.3重復2.1.2直至處理完Mashup中的所有單詞;
2.1.4重復2.1.1-2.1.3直至處理完所有Mashup服務。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于浙江工業大學,未經浙江工業大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110097169.3/1.html,轉載請聲明來源鉆瓜專利網。





