[發明專利]基于多任務學習的翻譯方法、裝置及存儲介質在審
| 申請號: | 202211307658.8 | 申請日: | 2022-10-24 |
| 公開(公告)號: | CN115906876A | 公開(公告)日: | 2023-04-04 |
| 發明(設計)人: | 翟飛飛;鄧彪;于東磊 | 申請(專利權)人: | 北京中科凡語科技有限公司 |
| 主分類號: | G06F40/58 | 分類號: | G06F40/58;G06F40/47;G06N3/0455;G06N3/08 |
| 代理公司: | 湖北權上知識產權代理事務所(特殊普通合伙) 42287 | 代理人: | 章勝強 |
| 地址: | 100190 北京市海淀*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 任務 學習 翻譯 方法 裝置 存儲 介質 | ||
1.一種基于多任務學習的翻譯方法,其特征在于,包括以下步驟:
S1、將訓練數據進行處理,得到模型所翻譯的當前輸入語句需要滿足的約束詞,將所述約束詞的序列拼接在對應的源端語言句子的尾端,得到翻譯任務的訓練語料樣本的序列;
S2、使用步驟S1得到的訓練語料樣本訓練Seq2Seq模型學習語義約束機器翻譯任務,將模型的輸出結果目標設為目標端語言句子;
S3、增加模型的目標端語言句子的降噪自編碼器任務、以及源端-目標端語言帶噪聲的句子之間的對比學習任務使對應的句向量之間盡量靠近,不對應的句向量之間盡量遠離。
2.根據權利要求1所述的基于多任務學習的翻譯方法,其特征在于,在步驟S1中,所述約束詞的獲取步驟包括:從目標端語言的每一個樣本中采樣,隨機抽取沒有交叉重疊的短語,每個所述短語包含1個以上的詞,所述短語即為所述需要滿足的約束詞。
3.根據權利要求2所述的基于多任務學習的翻譯方法,其特征在于,在步驟S1中,隨機抽取沒有交叉重疊的短語的數量為0-3個,每個所述短語包含1-5個詞。
4.根據權利要求2所述的基于多任務學習的翻譯方法,其特征在于,在步驟S1中,所述翻譯任務的訓練語料樣本由以下步驟獲得:將所有的所述短語使用符號依次連接起來,作為所述需要滿足的約束詞的序列表示形式,將所述序列拼接在源端語言的句子的后面,構成完整的輸入模型的數據序列,所述完整的輸入模型的數據序列即為所述翻譯任務的訓練語料樣本的序列。
5.根據權利要求1所述的基于多任務學習的翻譯方法,其特征在于,在步驟S2中,將步驟1得到的所述訓練語料樣本的序列作為翻譯模型的編碼器的輸入;該序列通過編碼器后,得到表示源端語言句子和約束詞的向量序列Eenc。
6.根據權利要求1所述的基于多任務學習的翻譯方法,其特征在于,在步驟S3中,所述增加模型的目標端語言句子的降噪自編碼器任務包括:使用目標端語言的句子,對于句子中的每個詞語,依次獨立隨機決定該詞語是否要被刪除,刪除后得到不連貫的短語片段,將所述短語片段使用符號依次連接起來,得到刪除詞語后的目標端語言的句子;之后將刪除詞語后的目標端語言的句子作為編碼器的輸入,解碼器的輸出為完整的目標端語言的句子。
7.根據權利要求6所述的基于多任務學習的翻譯方法,其特征在于,在步驟S3中,增加源端-目標端語言句子之間的對比學習任務包括:將所述源端語言句子和約束詞的向量序列Eenc中的所有向量求和,得到包含源端語言的句子的語義信息以及對應約束詞的語義信息的向量henc;將降噪自編碼器任務的輸入中得到的編碼器的輸出求和,得到包含目標端語言的句子的語義信息的向量hdae;將來自同一個平行翻譯句對的henc和hdae作為一組正樣本,而來自不同的平行翻譯句對的henc和hdae之間互為負樣本,使對應的句向量之間盡量靠近,不對應的句向量之間盡量遠離。
8.根據權利要求7所述的基于多任務學習的翻譯方法,其特征在于,在步驟S3中,所述對比學習的目標損失函數形式如下:
其中sim(·)為余弦相似度函數,N為每次訓練時,隨機采樣的一個batch的數據中包含的句子數目;在實際訓練時,訓練目標中只使用處在一個batch中的負樣本,加入到損失函數的表示形式中。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京中科凡語科技有限公司,未經北京中科凡語科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202211307658.8/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種有助于汽車電池散熱的汽車底盤架
- 下一篇:一種鋁合金犧牲陽極的熔鑄方法





