[發明專利]基于集群的詞向量處理方法、裝置以及設備有效
| 申請號: | 201710992297.8 | 申請日: | 2017-10-23 |
| 公開(公告)號: | CN107957989B9 | 公開(公告)日: | 2021-01-12 |
| 發明(設計)人: | 曹紹升;楊新星;周俊;李小龍 | 申請(專利權)人: | 創新先進技術有限公司 |
| 主分類號: | G06F40/30 | 分類號: | G06F40/30;G06K9/62 |
| 代理公司: | 北京晉德允升知識產權代理有限公司 11623 | 代理人: | 楊移 |
| 地址: | 開曼群島大開曼島*** | 國省代碼: | 暫無信息 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 集群 向量 處理 方法 裝置 以及 設備 | ||
1.一種基于集群的詞向量處理方法,所述集群包括多個工作機和多個服務器,所述方法包括:
將訓練語料拆分為多個部分語料,以便各工作機分別讀取一部分語料,進而使多個工作機分布式地分別根據拆分的部分語料,訓練所述部分語料對應的詞向量;
其中,各所述工作機分別執行以下操作以便訓練對應的詞向量:
獲取從部分語料中提取的詞及其上下文詞;
獲取所述詞及其上下文詞的詞向量;
根據所述詞及其上下文詞,訓練對應的詞向量;
服務器根據一個或者多個所述工作機對相同詞的詞向量分別的訓練結果,對所述相同詞的詞向量進行更新;
其中,所述訓練語料保持在數據庫中,以供集群中的工作機讀取部分語料;所述訓練語料的原始詞向量保存在所述集群的服務器。
2.如權利要求1所述的方法,所述獲取從部分語料中提取的詞及其上下文詞前,所述方法還包括:
各所述工作機分布式地讀取得到部分語料;
所述獲取從部分語料中提取的詞及其上下文詞,具體包括:
根據自己所讀取得到的語料,建立相應的詞對,所述詞對包含當前詞及其上下詞。
3.如權利要求2所述的方法,所述獲取所述詞及其上下文詞的詞向量,具體包括:
根據自己建立的各所述詞對,提取得到當前詞集合和上下文詞集合;
從所述服務器獲取所述當前詞集合和上下文詞集合包含的詞的詞向量。
4.如權利要求2所述的方法,所述根據所述詞及其上下文詞,訓練對應的詞向量,具體包括:
根據指定的損失函數、負樣例詞,以及自己建立的各所述詞對,訓練對應的詞向量。
5.如權利要求4所述的方法,所述根據指定的損失函數、負樣例詞,以及自己建立的各所述詞對,訓練對應的詞向量,具體包括:
對自己所讀取得到的語料進行遍歷;
根據指定的損失函數、負樣例詞,以及自己建立的各所述詞對,計算梯度,并根據所述梯度對遍歷的當前詞及其上下文詞的詞向量進行迭代更新。
6.如權利要求5所述的方法,所述根據指定的損失函數、負樣例詞,以及自己建立的各所述詞對,計算梯度,并根據所述梯度對遍歷的當前詞及其上下文詞的詞向量進行迭代更新,具體包括:
按照以下公式,對遍歷的當前詞及其上下文詞的詞向量進行迭代更新:
其中,w表示當前詞,c表示w的上下文詞,c'表示負樣例詞,表示w的詞向量,表示c的詞向量,和表示第t個工作機上第i次更新,Bi,k表示第i個工作機上第k組語料,Γ(w)表示w的上下文詞集合,α表示學習率,σ為Sigmoid函數。
7.如權利要求6所述的方法,所述對遍歷的當前詞及其上下文詞的詞向量進行迭代更新,具體包括:
所述工作機上的一個或者多個線程以異步計算且不加鎖的方式,所述對遍歷的當前詞及其上下文詞的詞向量進行迭代更新。
8.如權利要求3所述的方法,所述根據一個或者多個所述工作機對相同詞的詞向量分別的訓練結果,對所述相同詞的詞向量進行更新,具體包括:
所述服務器獲取一個或者多個所述工作機對相同詞的詞向量分別的訓練結果;
根據各所述訓練結果,以及訓練前保存的所述相同詞的詞向量,進行平均計算,得到向量增量值,并根據所述向量增量值對所述相同詞的詞向量進行更新。
9.如權利要求8所述的方法,所述根據各所述訓練結果,以及訓練前保存的所述相同詞的詞向量,進行平均計算,得到向量增量值,具體包括:
按照以下公式,計算得到向量增量值:
其中,w表示當前詞,c表示w的上下文詞,表示w的詞向量,表示c的詞向量,和表示第i個工作機上迭代更新結果,λi(w)表示w在第i個工作機上出現的次數,表示服務器訓練前保存的
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于創新先進技術有限公司,未經創新先進技術有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710992297.8/1.html,轉載請聲明來源鉆瓜專利網。





