[發明專利]詞向量訓練方法及裝置有效
| 申請號: | 201710022458.0 | 申請日: | 2017-01-12 |
| 公開(公告)號: | CN106897265B | 公開(公告)日: | 2020-07-10 |
| 發明(設計)人: | 李建欣;劉垚鵬;彭浩;張日崇;陳漢騰 | 申請(專利權)人: | 北京航空航天大學 |
| 主分類號: | G06F40/284 | 分類號: | G06F40/284;G06F40/242;G06F16/23 |
| 代理公司: | 北京同立鈞成知識產權代理有限公司 11205 | 代理人: | 楊澤;劉芳 |
| 地址: | 100191 北京市海*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 向量 訓練 方法 裝置 | ||
本發明提供一種詞向量訓練方法及裝置,屬于機器學習技術領域。該詞向量訓練方法包括:獲取新增詞匯庫,新增詞匯庫中的詞匯與舊詞匯庫中的詞匯構成新詞匯庫,舊詞匯庫中的詞匯對應有舊詞向量;對新詞匯庫中的詞匯進行初始化處理,使得新詞匯庫中屬于舊詞匯庫中的詞匯的詞向量為舊詞向量,新詞匯庫中屬于新增詞匯庫中的詞匯詞向量為隨機詞向量;根據新詞匯庫對應的第一哈夫曼樹和舊詞匯庫對應的第二哈夫曼樹分別對新詞匯庫中詞匯的詞向量進行更新。本發明提供的詞向量訓練方法及裝置,提高了詞向量的訓練效率。
技術領域
本發明涉及機器學習技術領域,尤其涉及一種詞向量訓練方法及裝置。
背景技術
在機器學習技術中,為了使機器理解人類語言的含義,神經網絡語言模型的詞表示工具將人類語言中的每個詞匯都轉換成詞向量的形式,使得計算機能夠通過詞向量學習到人類語言中每個詞匯的含義。
采用現有技術,當詞匯庫中加入新的詞匯后,通常需要重新學習新的詞匯庫中的所有的詞匯,以得到各個詞匯新的詞向量。但是,采用該方式使得詞向量的訓練效率較低。
發明內容
本發明提供一種詞向量訓練方法及裝置,提高了詞向量的訓練效率。
本發明實施例提供一種詞向量訓練方法,包括:
獲取新增詞匯庫,所述新增詞匯庫中的詞匯與舊詞匯庫中的詞匯構成新詞匯庫,所述舊詞匯庫中的詞匯對應有舊詞向量;
對所述新詞匯庫中的詞匯進行初始化處理,使得所述新詞匯庫中屬于所述舊詞匯庫中的詞匯的詞向量為舊詞向量,所述新詞匯庫中屬于所述新增詞匯庫中的詞匯詞向量為隨機詞向量;
根據所述新詞匯庫對應的第一哈夫曼樹和所述舊詞匯庫對應的第二哈夫曼樹分別對所述新詞匯庫中詞匯的詞向量進行更新。
在本發明一實施例中,所述根據所述新詞匯庫對應的第一哈夫曼樹和所述舊詞匯庫對應的第二哈夫曼樹分別對所述新詞匯庫中詞匯的詞向量進行更新,包括:
獲取所述第一詞匯對應的預設目標函數,所述第一詞匯為所述新詞匯庫中的詞匯;
根據所述第一詞匯在所述第一哈夫曼樹的屬性和在所述第二哈夫曼樹的屬性對所述預設目標函數進行梯度處理,得到所述第一詞匯對應的詞向量。
在本發明一實施例中,所述獲取所述第一詞匯對應的預設目標函數,包括:
若所述第一詞匯屬于所述舊詞匯庫,則根據Skip-gram模型的原始目標函數對所述第一詞匯進行因式分解,得到所述第一詞匯對應的預設目標函數;
若所述第一詞匯屬于所述新增詞匯庫,則所述第一詞匯對應的預設目標函數為所述Skip-gram模型的原始目標函數。
在本發明一實施例中,所述獲取所述第一詞匯對應的預設目標函數,包括:
若所述第一詞匯屬于所述舊詞匯庫,則根據CBOW模型的原始目標函數對所述第一詞匯進行因式分解,得到所述第一詞匯對應的預設目標函數;
若所述第一詞匯屬于所述新增詞匯庫,則所述第一詞匯對應的預設目標函數為所述CBOW模型的原始目標函數。
在本發明一實施例中,根據Skip-gram模型的原始目標函數對所述第一詞匯進行因式分解,得到所述第一詞匯對應的預設目標函數,包括:
若所述第一詞匯屬于所述舊詞匯庫,則根據對所述第一詞匯進行因式分解,得到所述第一詞匯對應的預設目標函數;
若所述第一詞匯屬于所述新增詞匯庫,則所述第一詞匯對應的預設目標函數為Skip-gram模型的原始目標函數
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京航空航天大學,未經北京航空航天大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710022458.0/2.html,轉載請聲明來源鉆瓜專利網。





