[發明專利]詞向量生成方法、裝置以及設備在審
| 申請號: | 201810113710.3 | 申請日: | 2018-02-05 |
| 公開(公告)號: | CN110119507A | 公開(公告)日: | 2019-08-13 |
| 發明(設計)人: | 曹紹升;周俊 | 申請(專利權)人: | 阿里巴巴集團控股有限公司 |
| 主分類號: | G06F17/27 | 分類號: | G06F17/27;G06N3/04 |
| 代理公司: | 北京晉德允升知識產權代理有限公司 11623 | 代理人: | 楊移 |
| 地址: | 英屬開曼群島大開*** | 國省代碼: | 開曼群島;KY |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 詞向量 特征向量 循環神經網絡 語料 分詞 | ||
本說明書實施例公開了詞向量生成方法、裝置以及設備。所述方法包括:獲取對語料分詞得到的各詞,基于n元字符建立各詞的特征向量,根據各詞的特征向量,以及各詞在語料中的上下文詞的特征向量,對循環神經網絡進行訓練,根據各詞的詞向量和訓練后的循環神經網絡,生成各詞的詞向量。
技術領域
本說明書涉及計算機軟件技術領域,尤其涉及詞向量生成方法、裝置以及設備。
背景技術
如今的自然語言處理的解決方案,大都采用基于神經網絡的架構,而在這種架構下一個重要的基礎技術就是詞向量。詞向量是將詞映射到一個固定維度的向量,該向量表征了該詞的語義信息。
在現有技術中,常見的用于生成詞向量的算法比如包括:谷歌公司的詞向量算法、微軟公司的深度神經網絡算法等。
基于現有技術,需要一種更準確的詞向量生成方案。
發明內容
本說明書實施例提供詞向量生成方法、裝置以及設備,用以解決如下技術問題:需要一種更準確的詞向量生成方案。
為解決上述技術問題,本說明書實施例是這樣實現的:
本說明書實施例提供的一種詞向量生成方法,包括:
獲取對語料分詞得到的各詞;
根據所述各詞對應的各n元字符,建立所述各詞的特征向量,所述n元字符表征其對應的詞的連續n個字符;
根據所述各詞的特征向量,以及所述各詞在所述語料中的上下文詞的特征向量,對循環神經網絡進行訓練;
根據所述各詞的特征向量和訓練后的所述循環神經網絡,生成所述各詞的詞向量。
本說明書實施例提供的一種詞向量生成裝置,包括:
獲取模塊,獲取對語料分詞得到的各詞;
建立模塊,根據所述各詞對應的各n元字符,建立所述各詞的特征向量,所述n元字符表征其對應的詞的連續n個字符;
訓練模塊,根據所述各詞的特征向量,以及所述各詞在所述語料中的上下文詞的特征向量,對循環神經網絡進行訓練;
生成模塊,根據所述各詞的特征向量和訓練后的所述循環神經網絡,生成所述各詞的詞向量。
本說明書實施例提供的另一種詞向量生成方法,包括:
步驟1,建立通過對語料分詞得到的各詞構成的詞匯表,所述各詞不包括在所述語料中出現次數少于設定次數的詞;跳轉步驟2;
步驟2,確定各詞對應的各n元字符的總數量,相同的n元字符只計一次,所述n元字符表征其對應的詞的連續n個字符;跳轉步驟3;
步驟3,根據所述各詞對應的各n元字符,為各詞分別建立維度為所述總數量的特征向量,所述特征向量的每維分別對應一個不同的n元字符,所述每維的取值表明其對應的n元字符是否對應于所述特征向量對應的詞;跳轉步驟4;
步驟4,遍歷分詞后的所述語料,對遍歷到的當前詞執行步驟5,若遍歷完成則執行步驟6,否則繼續遍歷;
步驟5,以當前詞為中心,向兩側分別滑動至多k個詞建立窗口,將窗口中除當前詞以外的詞作為上下文詞,并將所有上下文詞的特征向量構成的序列輸入循環神經網絡的序列表示層進行循環計算,得到第一向量;將當前詞以及在所述語料中選擇的負樣例詞的特征向量輸入所述循環神經網絡的全連接層進行計算,分別得到第二向量和第三向量;根據所述第一向量、所述第二向量、所述第三向量,以及指定的損失函數,更新所述循環神經網絡的參數;
所述循環計算按照如下公式進行:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于阿里巴巴集團控股有限公司,未經阿里巴巴集團控股有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810113710.3/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:文本提取方法及系統、設備和存儲介質
- 下一篇:聊天消息的過濾方法、系統及設備





