[發明專利]基于多任務學習的翻譯方法、裝置及存儲介質在審
| 申請號: | 202211307658.8 | 申請日: | 2022-10-24 |
| 公開(公告)號: | CN115906876A | 公開(公告)日: | 2023-04-04 |
| 發明(設計)人: | 翟飛飛;鄧彪;于東磊 | 申請(專利權)人: | 北京中科凡語科技有限公司 |
| 主分類號: | G06F40/58 | 分類號: | G06F40/58;G06F40/47;G06N3/0455;G06N3/08 |
| 代理公司: | 湖北權上知識產權代理事務所(特殊普通合伙) 42287 | 代理人: | 章勝強 |
| 地址: | 100190 北京市海淀*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 任務 學習 翻譯 方法 裝置 存儲 介質 | ||
本發明公開一種基于多任務學習的翻譯方法、裝置及存儲介質,屬于自然語言處理技術領域。該基于多任務學習的翻譯方法,包括以下步驟:S1、將訓練數據進行處理,得到模型所翻譯的當前輸入語句需要滿足的約束詞,得到翻譯任務的訓練語料樣本的序列;S2、使用訓練語料樣本訓練Seq2Seq模型學習語義約束機器翻譯任務,將模型的輸出結果目標設為目標端語言句子;S3、增加模型的目標端語言句子的降噪自編碼器任務、以及源端?目標端語言的帶噪聲句子之間的對比學習任務使對應的句向量之間盡量靠近,不對應的句向量之間盡量遠離。該方法可以幫助減小語義約束翻譯和降噪自編碼器任務之間的差距,提高翻譯的質量。
技術領域
本發明涉及自然語言處理技術領域,具體涉及一種基于多任務學習的翻譯方法、裝置及存儲介質。
背景技術
盡管機器翻譯技術在日常生活中的應用已較為成熟和完善,在一些專業領域如生物醫藥等,用戶往往需要機器翻譯模型能夠保證一些專業術語能夠準確翻譯為目標語言中的專業術語詞,這在當前的機器翻譯技術中尚未達到很好的效果。類似的問題也存在于低資源翻譯、領域自適應翻譯、交互式翻譯等多種場合。解決這種問題的技術,就是語義約束機器翻譯。
現有的語義約束機器翻譯方法,主要有約束式解碼和約束式訓練兩種。這兩種方法都只是將重點放在了如何在模型生成輸出時插入目標語言的約束詞,而忽視了如何利用已知的約束詞所蘊含的,與目標端語言的句子的上下文相關的語義信息,難以利用已知的約束詞提高翻譯的質量。
發明內容
本發明的目的在于克服上述技術不足,提供一種基于多任務學習的翻譯方法、裝置及存儲介質,解決現有技術中如何利用已知的約束詞提高翻譯的質量的技術問題。
為達到上述技術目的,本發明的技術方案提供一種基于多任務學習的翻譯方法,包括以下步驟:
S1、將訓練數據進行處理,得到模型所翻譯的當前輸入語句需要滿足的約束詞,將所述約束詞的序列拼接在對應的源端語言句子的尾端,得到翻譯任務的訓練語料樣本的序列;
S2、使用步驟S1得到的訓練語料樣本訓練Seq2Seq模型學習語義約束機器翻譯任務,將模型的輸出結果目標設為目標端語言句子;
S3、增加模型的目標端語言句子的降噪自編碼器任務、以及源端-目標端語言的帶噪聲句子之間的對比學習任務使對應的句向量之間盡量靠近,不對應的句向量之間盡量遠離。
進一步地,在步驟S1中,所述約束詞的獲取步驟包括:從目標端語言的每一個樣本中采樣,隨機抽取沒有交叉重疊的短語,每個所述短語包含1個以上的詞,所述短語即為所述需要滿足的約束詞。
進一步地,在步驟S1中,隨機抽取沒有交叉重疊的短語的數量為0-3個,每個所述短語包含1-5個詞。
進一步地,在步驟S1中,所述翻譯任務的訓練語料樣本由以下步驟獲得:將所有的所述短語使用符號依次連接起來,作為所述需要滿足的約束詞的序列表示形式,將所述序列拼接在源端語言的句子的后面,構成完整的輸入模型的數據序列,所述完整的輸入模型的數據序列即為所述翻譯任務的訓練語料樣本的序列。
進一步地,在步驟S2中,將步驟1得到的所述訓練語料樣本的序列作為翻譯模型的編碼器的輸入;該序列通過編碼器后,得到表示源端語言句子和約束詞的向量序列Eenc。
進一步地,在步驟S3中,所述增加模型的目標端語言句子的降噪自編碼器任務包括:使用目標端語言的句子,對于句子中的每個詞語,依次獨立隨機決定該詞語是否要被刪除,刪除后得到不連貫的短語片段,將所述短語片段使用符號依次連接起來,得到刪除詞語后的目標端語言的句子;之后將刪除詞語后的目標端語言的句子作為編碼器的輸入,解碼器的輸出為完整的目標端語言的句子。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京中科凡語科技有限公司,未經北京中科凡語科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202211307658.8/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種有助于汽車電池散熱的汽車底盤架
- 下一篇:一種鋁合金犧牲陽極的熔鑄方法





