[發明專利]一種詞向量嵌入方法及裝置有效
| 申請號: | 201711386882.X | 申請日: | 2017-12-20 |
| 公開(公告)號: | CN109948140B | 公開(公告)日: | 2023-06-23 |
| 發明(設計)人: | 張鵬 | 申請(專利權)人: | 普天信息技術有限公司 |
| 主分類號: | G06F40/205 | 分類號: | G06F40/205;G06F40/30 |
| 代理公司: | 北京路浩知識產權代理有限公司 11002 | 代理人: | 王瑩;李相雨 |
| 地址: | 100080 北京*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 向量 嵌入 方法 裝置 | ||
1.一種詞向量嵌入方法,其特征在于,包括:
獲取目標詞所在句子中與預先訓練的詞向量庫相匹配的每個詞語的參考詞向量;
根據所述參考詞向量,確定所述目標詞的初始詞向量;
根據所述初始詞向量和向量嵌入模型W2V訓練所述目標詞對應的目標語料集,確定所述目標詞的嵌入詞向量;
所述詞向量庫通過下述方法確定:
獲取預訓練語料集,所述預訓練語料集大于所述目標語料集并且與所述目標語料集相交;
對所述預訓練語料集中的每個預訓練語料進行分詞處理,確定所述預訓練語料集的預訓練詞典;
根據向量嵌入模型W2V訓練所述預訓練語料集,確定所述預訓練詞典中每個詞語的參考詞向量;
根據所述參考詞向量和所述預訓練詞典確定詞向量庫;
所述獲取目標詞所在句子中與預先訓練的詞向量庫相匹配的每個詞語的參考詞向量,包括:
根據目標詞匹配所述預訓練詞典,若匹配失敗,則根據預設窗口確定所述句子中所述目標詞的上下文詞;
根據所述上下文詞中的每個詞語匹配所述預訓練詞典,確定匹配成功的上下文詞在所述詞向量庫中的第二參考詞向量;
相應地,所述根據所述參考詞向量,確定所述目標詞的初始詞向量,包括:
計算所述第二參考詞向量的加和平均向量,將所述加和平均向量作為所述目標詞的初始詞向量。
2.根據權利要求1所述的方法,其特征在于,所述獲取目標詞所在句子中與預先訓練的詞向量庫相匹配的每個詞語的參考詞向量,包括:
根據目標詞匹配所述預訓練詞典,若匹配成功,則獲取所述目標詞在所述詞向量庫中的第一參考詞向量;
相應地,所述根據所述參考詞向量,確定所述目標詞的初始詞向量,包括:
將所述第一參考詞向量作為所述目標詞的初始詞向量。
3.根據權利要求1-2任一所述的方法,其特征在于,所述方法還包括:
根據預先訓練的字向量庫,獲取目標詞中每個文字的參考字向量;
相應地,所述根據所述參考詞向量,確定所述目標詞的初始詞向量,包括:
根據所述參考字向量和所述參考詞向量,確定所述目標詞的初始詞向量。
4.一種詞向量嵌入裝置,其特征在于,包括:
獲取模塊,用于獲取目標詞所在句子中與預先訓練的詞向量庫相匹配的每個詞語的參考詞向量;
初始化模塊,用于根據所述參考詞向量,確定所述目標詞的初始詞向量;
訓練模塊,用于根據所述初始詞向量和向量嵌入模型W2V訓練所述目標詞對應的目標語料集,確定所述目標詞的嵌入詞向量;
所述詞向量庫通過下述方法確定:
獲取預訓練語料集,所述預訓練語料集大于所述目標語料集并且與所述目標語料集相交;
對所述預訓練語料集中的每個預訓練語料進行分詞處理,確定所述預訓練語料集的預訓練詞典;
根據向量嵌入模型W2V訓練所述預訓練語料集,確定所述預訓練詞典中每個詞語的參考詞向量;
根據所述參考詞向量和所述預訓練詞典確定詞向量庫;
所述獲取模塊包括:
匹配單元,用于根據目標詞匹配所述預訓練詞典,若匹配失敗,則根據預設窗口確定所述句子中所述目標詞的上下文詞;
獲取單元,用于根據所述上下文詞中的每個詞語匹配所述預訓練詞典,確定匹配成功的上下文詞在所述詞向量庫中的第二參考詞向量;
相應地,所述初始化模塊具體用于:
計算所述第二參考詞向量的加和平均向量,將所述加和平均向量作為所述目標詞的初始詞向量。
5.根據權利要求4所述的裝置,其特征在于,所述獲取模塊具體用于:
根據目標詞匹配所述預訓練詞典,若匹配成功,則獲取所述目標詞在所述詞向量庫中的第一參考詞向量;
相應地,所述初始化模塊具體用于:
將所述第一參考詞向量作為所述目標詞的初始詞向量。
6.一種電子設備,其特征在于,包括:
存儲器和處理器,所述處理器和所述存儲器通過總線完成相互間的通信;所述存儲器存儲有可被所述處理器執行的程序指令,所述處理器調用所述程序指令能夠執行如權利要求1至3任一所述的方法。
7.一種計算機可讀存儲介質,其上存儲有計算機程序,其特征在于,所述計算機程序被處理器執行時實現如權利要求1至3任一所述的方法。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于普天信息技術有限公司,未經普天信息技術有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201711386882.X/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種語義傾向分析方法及系統
- 下一篇:一種提取特征詞的方法和裝置





