[發明專利]詞向量訓練方法和裝置有效
| 申請號: | 201710023520.8 | 申請日: | 2017-01-12 |
| 公開(公告)號: | CN106802888B | 公開(公告)日: | 2020-01-24 |
| 發明(設計)人: | 李建欣;劉垚鵬;彭浩;陳漢騰;張日崇 | 申請(專利權)人: | 北京航空航天大學 |
| 主分類號: | G06F40/284 | 分類號: | G06F40/284;G06F16/31 |
| 代理公司: | 11205 北京同立鈞成知識產權代理有限公司 | 代理人: | 張蓮蓮;劉芳 |
| 地址: | 100191 北京市海*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 向量 訓練 方法 裝置 | ||
1.一種詞向量訓練方法,其特征在于,包括:
獲取新增詞匯庫,所述新增詞匯庫中的詞匯與舊詞匯庫中的詞匯構成新詞匯庫,所述舊詞匯庫中的詞匯對應有舊詞向量;
對所述新詞匯庫中的詞匯進行初始化處理,使得所述新詞匯庫中屬于所述舊詞匯庫中的詞匯的詞向量為舊詞向量,所述新詞匯庫中屬于所述新增詞匯庫中的詞匯詞向量為隨機詞向量;
根據所述舊詞匯庫對應的噪聲分布和所述新詞匯庫對應的噪聲分布分別對所述新詞匯庫中詞匯的詞向量進行更新;
所述根據所述舊詞匯庫對應的噪聲分布和所述新詞匯庫對應的噪聲分布分別對所述新詞匯庫中詞匯的詞向量進行更新,包括:
獲取第一詞匯對應的預設目標函數,所述第一詞匯為所述新詞匯庫中的詞匯;
根據所述第一詞匯在所述舊詞匯庫的屬性和在所述新詞匯庫的屬性對所述預設目標函數進行梯度處理,得到所述第一詞匯對應的詞向量;
所述獲取第一詞匯對應的預設目標函數,包括:
若所述第一詞匯屬于所述舊詞匯庫,則根據Skip-gram模型的原始目標函數對所述第一詞匯進行因式分解,得到所述第一詞匯對應的預設目標函數;
若所述第一詞匯屬于所述新增詞匯庫,則所述第一詞匯對應的預設目標函數為所述Skip-gram模型的原始目標函數;
或者,所述獲取所述第一詞匯對應的預設目標函數,包括:
若所述第一詞匯屬于所述舊詞匯庫,則根據CBOW模型的原始目標函數對所述第一詞匯進行因式分解,得到所述第一詞匯對應的預設目標函數;
若所述第一詞匯屬于所述新增詞匯庫,則所述第一詞匯對應的預設目標函數為所述CBOW模型的原始目標函數。
2.根據權利要求1所述的方法,其特征在于,所述根據Skip-gram模型的原始目標函數對所述第一詞匯進行因式分解,得到所述第一詞匯對應的預設目標函數,包括:根據
對所述第一詞匯因式分解,其中,w表示所述第一詞匯,W表示所述舊詞匯庫,NEG(w)表示處理所述舊詞匯庫的詞匯時生成的負樣本子集,NEG'(w)表示處理所述新詞匯庫的詞匯時生成的負樣本子集,△NEG(w)表示處理所述新增詞匯庫的詞匯時生成的負樣本子集,表示w的上下文,表示所述第一詞匯w的目標函數,所述與所述skip-gram模型的原始目標函數是相同的函數,Context(w)表示所述對應的詞匯庫。
3.根據權利要求1所述的方法,其特征在于,所述根據CBOW模型的原始目標函數對所述第一詞匯進行因式分解,得到所述第一詞匯對應的預設目標函數,包括:根據
對所述第一詞匯因式分解,其中,w表示所述第一詞匯,W表示所述舊詞匯庫,NEG(w)表示處理所述舊詞匯庫的詞匯時生成的負樣本子集,NEG'(w)表示處理所述新詞匯庫的詞匯時生成的負樣本子集,△NEG(w)表示處理所述新增詞庫的詞匯時生成的負樣本子集,l(w,u)表示所述第一詞匯w的目標函數,所述∑∑l(w,u)與所述CBOW模型的原始目標函數是相同的函數。
4.根據權利要求2所述的方法,其特征在于,所述根據所述第一詞匯在所述舊詞匯庫的屬性和在所述新詞匯庫的屬性對所述預設目標函數進行梯度處理,得到所述第一詞匯對應的詞向量,包括:
獲取所述第一詞匯在舊詞匯庫中的權重參數len(w)和所述第一詞匯在所述新詞匯庫中的權重參數len'(w),獲取D(u)=sgn(len'(w)-len(w)),其中,
W'表示所述新詞匯庫,D為根據W構造的詞典;D'為根據W'構造的詞典,u為屬于D和D'中的詞匯,counter(w)表示w在新詞匯庫中出現的次數,counter(u)表示u在新詞匯庫中出現的次數,當D(u)為-1時,通過隨機梯度下降抵消所述第一詞匯重復出現的貢獻,當D(u)為1時,通過梯度上升來恢復所述第一詞匯的噪聲分布,并根據得到所述第一詞匯對應的詞向量,Lw(u)表示是否命中,參數v'(w)表示所述第一詞匯的詞向量,θ′u表示參數向量,η'表示學習率。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京航空航天大學,未經北京航空航天大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710023520.8/1.html,轉載請聲明來源鉆瓜專利網。





