[發明專利]詞向量對齊方法和詞向量對齊模型訓練方法有效
| 申請號: | 202010065486.2 | 申請日: | 2020-01-20 |
| 公開(公告)號: | CN111291563B | 公開(公告)日: | 2023-09-01 |
| 發明(設計)人: | 劉龍坡 | 申請(專利權)人: | 騰訊科技(深圳)有限公司 |
| 主分類號: | G06F40/284 | 分類號: | G06F40/284;G06N3/045;G06N3/0475;G06N3/094 |
| 代理公司: | 華進聯合專利商標代理有限公司 44224 | 代理人: | 唐彩琴;毛丹 |
| 地址: | 518000 廣東省深圳*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 向量 對齊 方法 模型 訓練 | ||
本申請涉及自然語言處理領域,提供一種詞向量對齊方法和詞向量對齊模型訓練方法,其中詞向量對齊方法包括:獲取待處理詞文本,將待處理詞文本輸入待對齊詞向量模型,得到對應的待對齊詞向量;獲取待對齊詞向量模型對應的已訓練的詞向量對齊模型;詞向量對齊模型包括生成網絡和判別網絡;生成網絡對原始詞向量集合生成對抗樣本,并通過對抗樣本及對應的基準詞向量集合與判別網絡對抗訓練得到詞向量對齊模型;原始詞向量集合為待對齊詞向量模型對訓練關鍵詞集合生成的;基準詞向量集合為基準詞向量模型對訓練關鍵詞集合生成的;將待對齊詞向量輸入生成網絡中,得到待對齊詞向量對應的對齊詞向量。采用本申請的方法可以實現詞向量空間的對齊。
技術領域
本申請涉及計算機技術領域,特別是涉及一種詞向量對齊方法和詞向量對齊模型訓練方法。
背景技術
隨著計算機應用領域的不斷擴大,自然語言處理受到了人們的高度重視。機器翻譯、語音識別以及信息檢索等應用需求對計算機的自然語言處理能力提出了越來越高的要求。計算機設備在對自然語言處理過程中,經常需要將詞文本映射至詞向量空間,得到對應的詞向量。
傳統技術中,通常是通過word2vec模型將詞文本映射到詞向量空間,但是,word2vec模型在進行訓練時,通常是基于語料上詞語的位置關系來進行訓練的,導致不同語料源訓練出來的詞向量空間并不一致。
發明內容
基于此,有必要針對傳統技術中不同語料源訓練出來的詞向量空間并不一致的技術問題,提供一種詞向量對齊方法和詞向量對齊模型訓練方法。
一種詞向量對齊方法,包括:
獲取待處理詞文本,將所述待處理詞文本輸入待對齊詞向量模型,得到對應的待對齊詞向量;
獲取所述待對齊詞向量模型對應的已訓練的詞向量對齊模型;所述詞向量對齊模型包括生成網絡和判別網絡;所述生成網絡對原始詞向量集合生成對抗樣本,并通過所述對抗樣本及對應的基準詞向量集合與所述判別網絡對抗訓練得到所述詞向量對齊模型;所述原始詞向量集合為所述待對齊詞向量模型對訓練關鍵詞集合生成的;所述基準詞向量集合為基準詞向量模型對所述訓練關鍵詞集合中至少一個訓練關鍵詞生成的;
將所述待對齊詞向量輸入所述生成網絡中,得到所述待對齊詞向量對應的對齊詞向量。
一種詞向量對齊裝置,所述裝置包括:
待對齊詞向量獲取模塊,用于獲取待處理詞文本,將所述待處理詞文本輸入待對齊詞向量模型,得到對應的待對齊詞向量;
詞向量對齊模型獲取模塊,用于獲取所述待對齊詞向量模型對應的已訓練的詞向量對齊模型;所述詞向量對齊模型包括生成網絡和判別網絡;所述生成網絡對原始詞向量集合生成對抗樣本,并通過所述對抗樣本及對應的基準詞向量集合與所述判別網絡對抗訓練得到所述詞向量對齊模型;所述原始詞向量集合為所述待對齊詞向量模型對訓練關鍵詞集合生成的;所述基準詞向量集合為基準詞向量模型對所述訓練關鍵詞集合中至少一個訓練關鍵詞生成的;
對齊詞向量獲取模塊,用于將所述待對齊詞向量輸入所述生成網絡中,得到所述待對齊詞向量對應的對齊詞向量。
一種計算機可讀存儲介質,存儲有計算機程序,所述計算機程序被處理器執行時,使得所述處理器執行上述詞向量對齊方法所述的步驟。
一種計算機設備,包括存儲器和處理器,所述存儲器存儲有計算機程序,所述計算機程序被所述處理器執行時,使得所述處理器執行上述詞向量對齊方法所述的步驟
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于騰訊科技(深圳)有限公司,未經騰訊科技(深圳)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010065486.2/2.html,轉載請聲明來源鉆瓜專利網。





