[發明專利]詞向量處理方法、裝置以及電子設備在審
| 申請號: | 201710583797.6 | 申請日: | 2017-07-18 |
| 公開(公告)號: | CN107577659A | 公開(公告)日: | 2018-01-12 |
| 發明(設計)人: | 曹紹升;周俊 | 申請(專利權)人: | 阿里巴巴集團控股有限公司 |
| 主分類號: | G06F17/27 | 分類號: | G06F17/27;G06F17/30;G06N3/04 |
| 代理公司: | 北京晉德允升知識產權代理有限公司11623 | 代理人: | 周莉娜 |
| 地址: | 英屬開曼群島大開*** | 國省代碼: | 暫無信息 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 向量 處理 方法 裝置 以及 電子設備 | ||
技術領域
本說明書涉及計算機軟件技術領域,尤其涉及詞向量處理方法、裝置以及電子設備。
背景技術
如今的自然語言處理的解決方案,大都采用基于神經網絡的架構,而在這種架構下一個重要的基礎技術就是詞向量。詞向量是將詞映射到一個固定維度的向量,該向量表征了該詞的語義信息。
在現有技術中,常見的用于生成詞向量的算法比如包括:谷歌公司的單詞向量算法、微軟公司的深度神經網絡算法等。
基于現有技術,需要一種針對英文的更準確的詞向量生成方案。
發明內容
本說明書實施例提供詞向量處理方法、裝置以及電子設備,用以解決如下技術問題:需要一種針對英文的更準確的詞向量生成方案。
為解決上述技術問題,本說明書實施例是這樣實現的:
本說明書實施例提供的一種詞向量處理方法,包括:
對語料分詞得到各詞;
確定所述各詞對應的詞干;
建立并初始化所述各詞的詞向量,以及所述各詞對應的詞干的詞干向量;
根據所述詞向量、所述詞干向量,以及分詞后的所述語料,對所述詞向量和所述詞干向量進行訓練。
本說明書實施例提供的一種詞向量處理裝置,包括:
分詞模塊,對語料分詞得到各詞;
確定模塊,確定所述各詞對應的詞干;
初始化模塊,建立并初始化所述各詞的詞向量,以及所述各詞對應的詞干的詞干向量;
訓練模塊,根據所述詞向量、所述詞干向量,以及分詞后的所述語料,對所述詞向量和所述詞干向量進行訓練。
本說明書實施例提供的另一種詞向量處理方法,包括:
步驟1,對語料分詞,并建立通過所述分詞得到的各詞構成的詞匯表,其中,所述各詞不包括在所述語料中出現次數少于設定次數的詞;跳轉步驟2;
步驟2,根據所述詞匯表,建立詞干映射表,所述映射表包含所述各詞與詞干之間的映射關系;跳轉步驟3;
步驟3,根據所述詞干映射表,建立并初始化所述各詞的詞向量,以及所述各詞映射的詞干的詞干向量;跳轉步驟4;
步驟4,遍歷分詞后的所述語料,分別將遍歷到的詞作為當前詞w并對當前詞w執行步驟5,若遍歷完成則結束,否則繼續遍歷;
步驟5,以當前詞w為中心,向兩側分別滑動至多k個詞建立窗口,遍歷所述窗口中除當前詞w以外的所有詞,分別將遍歷到的詞作為當前詞w的當前上下文詞c并對當前上下文詞c執行步驟6,若遍歷完成則繼續步驟4的執行,否則繼續遍歷;
步驟6,按照如下公式計算當前詞w與當前上下文詞c的相似度:
其中,q表示當前詞w的詞干,sim(w,c)表示當前詞w與當前上下文詞c的相似度;表示q的詞干向量,表示w的詞向量,表示c的詞向量,表示針對兩個向量的特定運算,所述特定運算為點積運算、或者夾角余弦運算、或者歐式距離運算;β1、β2為權重參數;β1、β2為權重參數;跳轉步驟7;
步驟7,隨機抽取λ個詞作為負樣例詞,按照如下損失函數計算對應的損失表征值l(w,c):
其中,c’是隨機抽取的負樣例詞,而Ec'∈p(V)[x]是指隨機抽取的負樣例詞c’滿足概率分布p(V)的情況下,表達式x的期望值,σ(·)是神經網絡激勵函數,定義為
根據計算出的損失表征值l(w,c)計算所述損失函數對應的梯度,根據所述梯度,對q的詞干向量和當前上下文詞c的詞向量進行更新。
本說明書實施例提供的一種電子設備,包括:
至少一個處理器;以及,
與所述至少一個處理器通信連接的存儲器;其中,
所述存儲器存儲有可被所述至少一個處理器執行的指令,所述指令被所述至少一個處理器執行,以使所述至少一個處理器能夠:
對語料分詞得到各詞;
確定所述各詞對應的詞干;
建立并初始化所述各詞的詞向量,以及所述各詞對應的詞干的詞干向量;
根據所述詞向量、所述詞干向量,以及分詞后的所述語料,對所述詞向量和所述詞干向量進行訓練。
本說明書實施例采用的上述至少一個技術方案能夠達到以下有益效果:由于詞干可以刻畫不同詞性但是同源或者同義的詞的語義相似度,進而有利于提高生成的英文詞的詞向量的準確度,實用效果較好,因此,可以部分或全部地解決上述技術問題。
附圖說明
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于阿里巴巴集團控股有限公司,未經阿里巴巴集團控股有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710583797.6/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:詞向量處理方法、裝置以及電子設備
- 下一篇:類目信息識別方法、裝置及服務器





