[發明專利]文本詞向量模型的訓練方法、電子設備及計算機存儲介質有效
| 申請號: | 201811544897.9 | 申請日: | 2018-12-17 |
| 公開(公告)號: | CN109635116B | 公開(公告)日: | 2023-03-24 |
| 發明(設計)人: | 高航 | 申請(專利權)人: | 騰訊科技(深圳)有限公司 |
| 主分類號: | G06F16/35 | 分類號: | G06F16/35;G06F40/284;G06F40/30 |
| 代理公司: | 北京市立方律師事務所 11330 | 代理人: | 張筱寧 |
| 地址: | 518000 廣東省深圳*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 文本 向量 模型 訓練 方法 電子設備 計算機 存儲 介質 | ||
1.一種文本詞向量模型的訓練方法,其特征在于,文本詞向量模型包括語義詞向量子模型與文本分類子模型,該方法包括:
根據各個訓練語句中包括的語句標簽,確定各個訓練語句分別對應的子模型,所述語句標簽用于指示訓練語句對應的子模型;
通過各個訓練語句對相應的語義詞向量子模型和文本分類子模型分別進行訓練,來更新所述文本詞向量模型的第一詞向量矩陣,以使得通過更新第一詞向量矩陣來訓練所述文本詞向量模型;
其中,所述通過各個訓練語句對相應的語義詞向量子模型和文本分類子模型分別進行訓練,包括:
通過包括與語義詞向量子模型對應的語句標簽以及分詞后的第一語句文本的任一訓練語句,對語義詞向量子模型進行訓練;以及,
通過包括與文本分類子模型對應的語句標簽、文本分類子模型的子模型類型標簽、訓練語句的文本類別以及分詞后的第二語句文本的任一訓練語句,對文本分類子模型進行訓練。
2.根據權利要求1所述的方法,其特征在于,通過各個訓練語句對相應的語義詞向量子模型進行訓練,來更新所述文本詞向量模型的第一詞向量矩陣,包括:
根據各個訓練語句中分詞后的第一語句文本,分別生成相應的訓練樣本;
基于所述訓練樣本,確定語義詞向量子模型的第一梯度向量;
根據所述第一梯度向量更新第一詞向量矩陣與第二詞向量矩陣,所述語義詞向量子模型包括第一詞向量矩陣與第二詞向量矩陣。
3.根據權利要求2所述的方法,其特征在于,所述根據各個訓練語句中分詞后的第一語句文本,分別生成相應的訓練樣本,包括:
對任一訓練語句中分詞后的第一語句文本中的任一分詞,通過遍歷所述任一分詞在所述分詞后的第一語句文本中前后預設個數的分詞,生成所述任一分詞對應的正樣本;
對任一訓練語句中分詞后的第一語句文本中的任一分詞,通過負采樣的方式生成所述任一分詞對應的負樣本;
其中,任一正樣本或任一負樣本均包括第一樣本詞、第二樣本詞及樣本標簽,所述樣本標簽標識訓練樣本為正樣本或負樣本。
4.根據權利要求3所述的方法,其特征在于,所述基于所述訓練樣本,確定語義詞向量子模型的第一梯度向量,包括:
針對任一正樣本或任一負樣本,根據樣本詞與詞向量之間的預設映射關系,在所述第一詞向量矩陣中查找第一樣本詞的詞向量,并在所述第二詞向量矩陣中查找第二樣本詞的詞向量;
根據所述第一樣本詞的詞向量、所述第二樣本詞的詞向量及相應的樣本標簽,確定所述語義詞向量子模型的第一梯度向量。
5.根據權利要求4所述的方法,其特征在于,所述根據所述第一樣本詞的詞向量、所述第二樣本詞的詞向量及相應的樣本標簽,確定所述語義詞向量子模型的第一梯度向量,包括:
確定第一樣本詞的詞向量與第二樣本詞的詞向量間的乘積,并對該乘積進行預定函數運算,得到第一運算結果;
確定相應的樣本標簽與所述第一運算結果之間的差值,并計算預定參數與該差值的乘積,得到第二運算結果;
根據所述第二運算結果與第二樣本詞的詞向量之間的乘積,得到第一樣本詞的梯度向量;
根據第二運算結果與第一樣本詞的詞向量之間的乘積,得到第二樣本詞的梯度向量;
所述第一梯度向量包括第一樣本詞的梯度向量與第二樣本詞的梯度向量;
其中,所述根據所述第一梯度向量更新第一詞向量矩陣與第二詞向量矩陣,包括:
根據第一樣本詞的梯度向量更新第一詞向量矩陣;
根據第二樣本詞的梯度向量更新第二詞向量矩陣。
6.根據權利要求1所述的方法,其特征在于,所述通過各個訓練語句對相應的文本分類子模型進行訓練,來更新所述文本詞向量模型的第一詞向量矩陣,包括:
根據各個訓練語句中文本分類子模型的子模型類型標簽,確定各個訓練語句分別對應的文本分類子模型的類型;
通過各個訓練語句對相應類型的文本分類子模型進行訓練,來更新所述文本詞向量模型的第一詞向量矩陣。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于騰訊科技(深圳)有限公司,未經騰訊科技(深圳)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201811544897.9/1.html,轉載請聲明來源鉆瓜專利網。





