[發明專利]聯合詞性與詞序的相關因子訓練的word2vec改進方法有效
| 申請號: | 201710791297.1 | 申請日: | 2017-09-05 |
| 公開(公告)號: | CN107526834B | 公開(公告)日: | 2020-10-23 |
| 發明(設計)人: | 于重重;曹帥;潘博;張青川 | 申請(專利權)人: | 北京工商大學 |
| 主分類號: | G06F16/35 | 分類號: | G06F16/35;G06F40/30;G06K9/62 |
| 代理公司: | 北京萬象新悅知識產權代理有限公司 11360 | 代理人: | 黃鳳茹 |
| 地址: | 100048 北*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 聯合 詞性 詞序 相關 因子 訓練 word2vec 改進 方法 | ||
1.一種word2vec改進方法,其特征是,建立聯合詞性因子與詞序因子訓練的Structured word2vec on POS模型;Structured word2vec on POS模型包括CWindow-POS(CWP)模型和Structured Skip gram-POS(SSGP)模型,CWP模型和SSGP模型均將詞性標注信息與詞語順序作為影響因素聯合優化,利用詞性關聯信息對上下文窗口內詞語之間的固有句法關系進行建模;通過詞性關聯權重對上下文詞語序列進行加權計算,再按詞語位置順序進行向量內積計算,使用隨機梯度下降算法聯合學習word embedding和詞性相關性加權矩陣,實現對詞向量和詞性相關加權矩陣進行聯合優化;包括如下步驟:
1)建立CWP模型:定義輸出預測矩陣為O∈R|V|×2cd,并引入詞性相關性加權矩陣,建立特征詞的詞向量模型CWP模型;包括:
針對訓練語料Corp,CWP模型的目標函數為一個最大化每個樣本標記詞的對數似然函數;采用改進NS算法的訓練函數,通過對式1的目標函數進行訓練,計算得到最大似然概率:
式1中,QCBOW為最大似然概率;word(t)為局部中心詞,t表示訓練語料Corp中的詞語tokens序號;Context(word(t))為word(t)上下文詞語序列;Neg(word)表示word為中心詞,對word抽取的反例樣本集合的反例樣本集合;Lword(t)(u)表示word(t)的采樣詞語u的標簽,如果word(t)=u,Lword(t)(u)=1;否則Lword(t)(u)=0;
p(u|context(word(t)))為采樣詞語u跟隨上下文context(word(t))共現后驗概率;p(u|context(word(t)))的計算過程為:首先將輸入層的詞向量分別進行詞性加權計算;然后將詞性加權計算后的向量按上下文詞語出現順序定向嵌入到投影層中,串聯性向量形式如式2:
xword(t)=[Φ-c(zt-c,zt)v(word(t-c)),......Φ-1(zt-1,zt)v(word(t-1)),Φ1(zt+1,zt)v(word(t+1)),......Φc(zt+c,zt)v(word(t+c))] (式2)
其中,Φ-c(zt-c,zt)代表的含義是距離中心詞為c的位置上,詞性標簽zt-c與zt的相關性權值;v(word(t-c))是詞語word(t-c)的詞向量;
將式2代入NS算法中,得出式3:
u∈{word(t)}∪Neg(word(t))
θu(i)=O(u)[(index[i]-1)×d+1~index[i]×d]
其中,σ為Sigmod函數;xword(t)為投影層向量;O為輸出層預測矩陣;O(u)為O中以u為索引的預測向量;v(word(t+i))為詞語word(t+i)的向量;
將式1QCBOW中的花括號下的式子記為L,作為CWP的目標函數進行梯度推導,將式3代入L,表示為式4:
針對式4中目標函數的變量Φi(zt+i,zt)、θu(i)和v(word(t+i)) ,采用隨機梯度上升法對L的上述三個變量進行梯度求導求解,然后不斷優化更新,從而實現對詞向量和詞性相關加權矩陣進行聯合優化;
2)建立SSGP模型:在SSG模型和PWE模型基礎上,給定中心詞的word(t)使用單個輸出矩陣O∈R|V|×d來預測每個上下文詞,并引入詞性相關性加權矩陣進行建模;包括:
針對訓練語料庫Corp,采用改進NS算法的訓練函數如下:
其中,p(word(t+i)|u)表示基于采樣詞語u的word(t+i)后驗概率,QCSG為最大似然概率;將PWE的詞性相關度加權矩陣Φi加入輸出層后,矩陣中基于詞性的加權因子與詞語定向嵌入的位置相關,通過式12計算得到p(word(t+i)|u):
其中,σ為Sigmod函數:v(word)表示詞語word的向量;Oi(u)表示預測矩陣Oi中以u為索引的預測向量;
將式11QCSG的花括號下式子記為L1,作為Structured Skip gram-POS的目標函數進行梯度推導,將式12代入式11,L1表示為式13:
L1={(Lword(t)(u)×log[σ(Φi(zt+i,zt)v(word(t+i))·Oi(u))]+(1-Lword(t)(u))×log[1-σ(Φi(zt+i,zt)v(word(t+i))·Oi(u))]} (式13)
針對式13目標函數中的變量參數Φi(zt+i,zt)、θu(i)和v(word(t+i)) ,采用隨機梯度上升法對L1的三個變量進行梯度求解,然后不斷地優化更新,從而實現對詞向量和詞性相關加權矩陣進行聯合優化;
由此,通過CWP模型和SSGP模型,使用隨機梯度下降算法聯合學習word embedding 和詞性相關性加權矩陣,實現對詞向量和詞性相關加權矩陣進行聯合優化。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京工商大學,未經北京工商大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710791297.1/1.html,轉載請聲明來源鉆瓜專利網。





