[發明專利]基于集群的詞向量處理方法、裝置以及設備有效
| 申請號: | 201710992297.8 | 申請日: | 2017-10-23 |
| 公開(公告)號: | CN107957989B9 | 公開(公告)日: | 2021-01-12 |
| 發明(設計)人: | 曹紹升;楊新星;周俊;李小龍 | 申請(專利權)人: | 創新先進技術有限公司 |
| 主分類號: | G06F40/30 | 分類號: | G06F40/30;G06K9/62 |
| 代理公司: | 北京晉德允升知識產權代理有限公司 11623 | 代理人: | 楊移 |
| 地址: | 開曼群島大開曼島*** | 國省代碼: | 暫無信息 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 集群 向量 處理 方法 裝置 以及 設備 | ||
本說明書實施例公開了基于集群的詞向量處理方法、裝置以及設備,方案包括:集群包括服務器集群和工作機集群,工作機集群中的各工作機并行地分別讀取部分語料,并從讀取的語料中提取詞及其上下文詞,從服務器集群中的服務器獲取對應的詞向量并進行訓練,由服務器根據一個或者多個工作機對相同詞的詞向量分別的訓練結果,對訓練前保存的相同詞的詞向量進行更新。
技術領域
本說明書涉及計算機軟件技術領域,尤其涉及基于集群的詞向量處理方法、裝置以及設備。
背景技術
如今的自然語言處理的解決方案,大都采用基于神經網絡的架構,而在這種架構下一個重要的基礎技術就是詞向量。詞向量是將詞映射到一個固定維度的向量,該向量表征了該詞的語義信息。
在現有技術中,常見的用于生成詞向量的算法比如包括谷歌公司的單詞向量算法、微軟公司的深度神經網絡算法等,往往在單機上運行。
基于現有技術,需要高效的大規模詞向量訓練方案。
發明內容
本說明書實施例提供基于集群的詞向量處理方法、裝置以及設備,用以解決如下技術問題:需要高效的大規模詞向量訓練方案。
為解決上述技術問題,本說明書實施例是這樣實現的:
本說明書實施例提供的一種基于集群的詞向量處理方法,所述集群包括多個工作機,所述方法包括:
各所述工作機分別執行:
獲取從部分語料中提取的詞及其上下文詞;
獲取所述詞及其上下文詞的詞向量;
根據所述詞及其上下文詞,訓練對應的詞向量;
根據一個或者多個所述工作機對相同詞的詞向量分別的訓練結果,對所述相同詞的詞向量進行更新。
本說明書實施例提供的一種基于集群的詞向量處理裝置,所述集群包括多個工作機,所述裝置位于所述集群,包括整合更新模塊、位于所述工作機的訓練模塊;
各所述工作機的訓練模塊分別執行:
獲取從部分語料中提取的詞及其上下文詞;
獲取所述詞及其上下文詞的詞向量;
根據所述詞及其上下文詞,訓練對應的詞向量;
所述整合更新模塊,根據一個或者多個所述工作機對相同詞的詞向量分別的訓練結果,對所述相同詞的詞向量進行更新。
本說明書實施例提供的一種基于集群的詞向量處理設備,所述設備屬于所述集群,包括:
至少一個處理器;以及,
與所述至少一個處理器通信連接的存儲器;其中,
所述存儲器存儲有可被所述至少一個處理器執行的指令,所述指令被所述至少一個處理器執行,以使所述至少一個處理器能夠:
獲取從部分語料中提取的詞及其上下文詞;
獲取所述詞及其上下文詞的詞向量;
根據所述詞及其上下文詞,訓練對應的詞向量;
根據一個或者多個所述處理器對相同詞的詞向量分別的訓練結果,對所述相同詞的詞向量進行更新。
本說明書實施例采用的上述至少一個技術方案能夠達到以下有益效果:集群的分布式并行處理能力使得該方案能夠適用于大規模詞向量訓練且效率較高。
附圖說明
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于創新先進技術有限公司,未經創新先進技術有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710992297.8/2.html,轉載請聲明來源鉆瓜專利網。





