[發明專利]詞向量對齊方法和詞向量對齊模型訓練方法有效
| 申請號: | 202010065486.2 | 申請日: | 2020-01-20 |
| 公開(公告)號: | CN111291563B | 公開(公告)日: | 2023-09-01 |
| 發明(設計)人: | 劉龍坡 | 申請(專利權)人: | 騰訊科技(深圳)有限公司 |
| 主分類號: | G06F40/284 | 分類號: | G06F40/284;G06N3/045;G06N3/0475;G06N3/094 |
| 代理公司: | 華進聯合專利商標代理有限公司 44224 | 代理人: | 唐彩琴;毛丹 |
| 地址: | 518000 廣東省深圳*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 向量 對齊 方法 模型 訓練 | ||
1.一種詞向量對齊方法,包括:
獲取待處理詞文本,將所述待處理詞文本輸入待對齊詞向量模型,得到對應的待對齊詞向量;
獲取所述待對齊詞向量模型對應的已訓練的詞向量對齊模型;所述詞向量對齊模型包括生成網絡和判別網絡;所述詞向量對齊模型是根據第一損失值和第二損失值訓練得到的;所述第一損失值是根據第一對抗相似度和第一原始相似度得到的;所述第一對抗相似度為第一對抗詞向量和第二對抗詞向量之間的相似度,所述第一對抗詞向量和第二對抗詞向量,是通過將原始詞向量集合中的第一原始詞向量和第二原始詞向量輸入生成網絡中獲得的;所述第一原始相似度為所述第一原始詞向量和第二原始詞向量之間的相似度;所述第二損失值是根據對抗預測值或基準預測值確定的,所述基準預測值是通過將基準詞向量集合中任意一個基準詞向量輸入判別網絡中獲得的,所述對抗預測值是通過將所述基準詞向量對應的目標對抗詞向量輸入判別網絡中獲得的;所述原始詞向量集合為所述待對齊詞向量模型對訓練關鍵詞集合生成的;所述基準詞向量集合為基準詞向量模型對所述訓練關鍵詞集合中至少一個訓練關鍵詞生成的;
將所述待對齊詞向量輸入所述生成網絡中,得到所述待對齊詞向量對應的對齊詞向量。
2.根據權利要求1所述的方法,其特征在于,所述詞向量對齊模型的訓練步驟包括:
將所述訓練關鍵詞集合輸入所述待對齊詞向量模型,得到對應的原始詞向量集合;所述原始詞向量集合中包括第一原始詞向量及所述第二原始詞向量;
將所述訓練關鍵詞集合中至少一個訓練關鍵詞輸入所述基準詞向量模型,得到對應的基準詞向量集合;
將所述第一原始詞向量及所述第二原始詞向量輸入生成網絡中,得到對應的第一對抗詞向量和第二對抗詞向量;
獲取所述第一對抗詞向量和第二對抗詞向量之間的第一對抗相似度,獲取所述第一原始詞向量和所述第二原始詞向量之間的第一原始相似度,根據所述第一對抗相似度和所述第一原始相似度確定第一損失值;
將所述基準詞向量集合中任意一個基準詞向量和所述基準詞向量對應的目標對抗詞向量輸入判別網絡中,得到所述目標對抗詞向量對應的對抗預測值和所述基準詞向量對應的基準預測值;
根據所述對抗預測值或所述基準預測值確定第二損失值;
根據所述第一損失值和所述第二損失值訓練所述詞向量對齊模型。
3.根據權利要求2所述的方法,其特征在于,所述原始詞向量集合還包括第三原始詞向量;所述根據所述第一對抗相似度和所述第一原始相似度確定第一損失值,包括:
將所述第一原始詞向量及所述第三原始詞向量輸入生成網絡中,得到對應的第二對抗詞向量集合,獲取所述第二對抗詞向量集合對應的第二對抗相似度;
獲取所述第一對抗相似度和所述第二對抗相似度之間的第一差值;
獲取第一原始相似度和第二原始相似度之間的第二差值;所述第二原始相似度為所述第一原始詞向量和第三原始詞向量之間的相似度;
根據所述第一差值和所述第二差值確定第一損失值。
4.根據權利要求1至3任意一項所述的方法,其特征在于,所述方法還包括:
獲取目標關鍵詞對應于各個語料源的目標對齊詞向量;
獲取各個所述目標對齊詞向量與各自對應的非目標對齊詞向量之間的相似度,得到各個所述目標對齊詞向量對應的相似度集合;
融合各個相似度集合,得到目標關鍵詞對應于各個詞文本的目標相似度;
根據各個詞文本的目標相似度,確定所述目標關鍵詞對應的目標相似詞。
5.根據權利要求4所述的方法,其特征在于,所述目標關鍵詞為待推薦信息對應的關鍵詞;所述方法還包括:
將所述目標相似詞與用戶集合中各個用戶對應的用戶標簽進行匹配;
將匹配成功的用戶標簽對應的用戶確定為目標用戶;
將所述待推薦信息推薦至所述目標用戶對應的終端。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于騰訊科技(深圳)有限公司,未經騰訊科技(深圳)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010065486.2/1.html,轉載請聲明來源鉆瓜專利網。





