[發(fā)明專利]一種基于自監(jiān)督的機(jī)器翻譯譯文自動(dòng)優(yōu)化的方法和系統(tǒng)有效
| 申請?zhí)枺?/td> | 202010294829.2 | 申請日: | 2020-04-15 |
| 公開(公告)號: | CN111597778B | 公開(公告)日: | 2023-05-30 |
| 發(fā)明(設(shè)計(jì))人: | 楊沐昀;徐冰;王佳麒;趙鐵軍;朱聰慧;曹海龍;趙恩博;唐煜 | 申請(專利權(quán))人: | 哈爾濱工業(yè)大學(xué) |
| 主分類號: | G06F40/166 | 分類號: | G06F40/166;G06F40/232;G06F40/58 |
| 代理公司: | 哈爾濱市陽光惠遠(yuǎn)知識(shí)產(chǎn)權(quán)代理有限公司 23211 | 代理人: | 劉景祥 |
| 地址: | 150001 黑龍*** | 國省代碼: | 黑龍江;23 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 監(jiān)督 機(jī)器翻譯 譯文 自動(dòng) 優(yōu)化 方法 系統(tǒng) | ||
本發(fā)明涉及一種基于自監(jiān)督的機(jī)器翻譯譯文自動(dòng)優(yōu)化的方法和系統(tǒng),屬于機(jī)器翻譯領(lǐng)域。所述方法包括以下步驟:步驟一、使用大規(guī)模平行語料對模型進(jìn)行訓(xùn)練,使模型學(xué)習(xí)替換操作;步驟二、使用人工構(gòu)造的偽數(shù)據(jù)對模型進(jìn)行訓(xùn)練,使模型學(xué)習(xí)插入操作,得到訓(xùn)練好的模型;步驟三、使用訓(xùn)練好的模型對待優(yōu)化的譯文中的每個(gè)詞和詞間空隙進(jìn)行候選詞預(yù)測,完成替換和插入的后編輯操作。本發(fā)明利用雙語平行語料作為模型預(yù)訓(xùn)練的輸入,使得模型在不同機(jī)器翻譯系統(tǒng)上都能獲得良好的優(yōu)化性能,是一種通用的機(jī)器翻譯自動(dòng)后編輯模型。
技術(shù)領(lǐng)域
本發(fā)明涉及一種基于自監(jiān)督的機(jī)器翻譯譯文自動(dòng)優(yōu)化的方法和系統(tǒng),屬于機(jī)器翻譯領(lǐng)域。
背景技術(shù)
機(jī)器翻譯是利用計(jì)算機(jī)程序?qū)⑽淖只蛘Z音從一種自然語言翻譯成另一種自然語言的技術(shù)。機(jī)器翻譯譯文質(zhì)量在近年來,特別是在神經(jīng)機(jī)器翻譯出現(xiàn)后有很大的提高,但其整體質(zhì)量與人工譯文相比仍有較大差距,機(jī)器譯文需要進(jìn)行一定的優(yōu)化才能作為合格的譯文使用。機(jī)器翻譯譯文的優(yōu)化技術(shù)大概可以分為兩種:一種是在原譯文的基礎(chǔ)上引入其他翻譯結(jié)果進(jìn)行譯文的融合優(yōu)化,如引入多種機(jī)器翻譯系統(tǒng)的翻譯結(jié)果;另一種是采用后處理的思想,修改當(dāng)前譯文的瑕疵,類似人工翻譯過程中的譯后編輯(Post?Editing,PE),故稱為自動(dòng)后編輯(Automatic?Post?Editing,APE)。本專利采取的技術(shù)路線是一種自動(dòng)后編輯策略。
譯后編輯一般由受過專業(yè)訓(xùn)練的人類專家進(jìn)行,但隨著翻譯任務(wù)規(guī)模的增加,人類譯后編輯的過程非常昂貴且費(fèi)時(shí)。對于機(jī)器翻譯來說,其中的翻譯錯(cuò)誤呈現(xiàn)一定的規(guī)律性,針對這些錯(cuò)誤所需的后編輯操作也是有規(guī)律可循的,因此人們提出了自動(dòng)后編輯這一技術(shù)思路。譯文自動(dòng)后編輯往往需要大量的機(jī)器翻譯結(jié)果和譯后編輯形成可接受譯文,利用某種學(xué)習(xí)策略訓(xùn)練建立后編輯模型,實(shí)現(xiàn)自動(dòng)糾正機(jī)器翻譯譯文中出現(xiàn)的錯(cuò)誤。
早期的自動(dòng)后編輯主要是基于規(guī)則的方法。Allen和Hogan等人(2000)將自動(dòng)后編輯系統(tǒng)定義為一個(gè)能自動(dòng)從包含源語言、機(jī)器譯文和目標(biāo)語譯文的“三語平行語料庫”中自動(dòng)的學(xué)習(xí)后編輯規(guī)則的方法。Elming提出了一種基于轉(zhuǎn)換學(xué)習(xí)的方法(Transformation-based?learning,TBL),自動(dòng)的從“三語”語料庫中學(xué)習(xí)修改規(guī)則,并將其運(yùn)用于待編輯譯文。
Simard等人(2007)沿用統(tǒng)計(jì)機(jī)器學(xué)習(xí)的思想,將自動(dòng)后編輯看作將“機(jī)器語言(譯文)”翻譯成“自然語言(人工譯文)”的過程。具體技術(shù)上就是訓(xùn)練一個(gè)基于短語的單語統(tǒng)計(jì)機(jī)器翻譯系統(tǒng),將待優(yōu)化的機(jī)器譯文視作源語言句子,人工譯文視作目標(biāo)端句子對模型進(jìn)行訓(xùn)練。Béchara等人(2011)則再此基礎(chǔ)上解決了后編輯短語與源語言之間信息失去聯(lián)系的缺陷,提出了基于源語言對齊的模型。在該模型中,Béchara等人引入源語言句子并把它作為APE的上下文來構(gòu)建機(jī)器翻譯系統(tǒng),源語言和機(jī)器翻譯結(jié)果之間的對齊信息被引入到統(tǒng)計(jì)后編輯模型中。
深度學(xué)習(xí)出現(xiàn)后,各種神經(jīng)機(jī)器翻譯模型也和統(tǒng)計(jì)翻譯模型一樣,被用于解決自動(dòng)后編輯問題。Pal等人提出利用雙向循環(huán)神經(jīng)網(wǎng)絡(luò)編碼器-解碼器模型建立一個(gè)單語機(jī)器翻譯系統(tǒng)完成APE任務(wù),與基于短語的統(tǒng)計(jì)后編輯模型相比,該方法極大提高了APE的效果。
Junczys-Dowmunt等人和Tebbifakhr等人將Transformer模型引入到自動(dòng)后編輯任務(wù)中,同樣采取了兩個(gè)編碼器和一個(gè)解碼器的架構(gòu);Correia等人利用BERT模型處理自動(dòng)后編輯問題,將BERT作為多語言的編碼器并對BERT模型進(jìn)行修改,使其能作為解碼器使用,在多個(gè)數(shù)據(jù)集上取得了當(dāng)前最好的效果。
上述APE模型的共同特性是都是系統(tǒng)依賴的,即對于特定機(jī)器翻譯系統(tǒng),利用它所產(chǎn)生的雙語句對進(jìn)行預(yù)訓(xùn)練的APE模型在該系統(tǒng)上有很好的性能,但對于其他翻譯系統(tǒng)卻效果驟降。本專利提出一個(gè)通用的機(jī)器翻譯自動(dòng)后編輯模型,對所有機(jī)器翻譯系統(tǒng)譯文都具有較好的優(yōu)化能力。
發(fā)明內(nèi)容
本發(fā)明的目的是提出了一種基于自監(jiān)督的機(jī)器翻譯譯文自動(dòng)優(yōu)化的方法和系統(tǒng),可以解決機(jī)器翻譯中的錯(cuò)譯與漏譯問題,且不受后編輯數(shù)據(jù)規(guī)模的限制,且模型的并行性高。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于哈爾濱工業(yè)大學(xué),未經(jīng)哈爾濱工業(yè)大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010294829.2/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 在即時(shí)通信中提供即時(shí)監(jiān)督功能的方法及系統(tǒng)
- 一種監(jiān)督事件的生成裝置
- 一種資產(chǎn)托管監(jiān)督任務(wù)的處理方法及裝置
- 一種監(jiān)督方法及裝置
- 基于自監(jiān)督學(xué)習(xí)的標(biāo)簽比例學(xué)習(xí)模型的訓(xùn)練方法和設(shè)備
- 一種衛(wèi)生監(jiān)督對象尋址方法、電子設(shè)備及存儲(chǔ)介質(zhì)
- 一種機(jī)器人表情調(diào)用方法和家用機(jī)器人
- 計(jì)算機(jī)視覺訓(xùn)練系統(tǒng)和用于訓(xùn)練計(jì)算機(jī)視覺系統(tǒng)的方法
- 一種基于廠區(qū)智能管理系統(tǒng)的工廠設(shè)備監(jiān)督系統(tǒng)
- 信息化綜合監(jiān)督系統(tǒng)及方法
- 一種用于提高機(jī)器翻譯質(zhì)量的裝置和方法
- 機(jī)器翻譯方法和裝置
- 一種ERP術(shù)語機(jī)器翻譯方法
- 機(jī)器翻譯引擎推薦方法及裝置
- 神經(jīng)機(jī)器翻譯模型的訓(xùn)練方法、裝置及存儲(chǔ)介質(zhì)
- 基于機(jī)器翻譯引擎的翻譯方法及裝置
- 一種基于篇章的機(jī)器翻譯引擎測評優(yōu)選方法及系統(tǒng)
- 機(jī)器翻譯引擎服務(wù)恢復(fù)方法及裝置
- 一種基于預(yù)訓(xùn)練的稀缺資源神經(jīng)機(jī)器翻譯訓(xùn)練方法
- 基于混合策略的移動(dòng)設(shè)備機(jī)器翻譯系統(tǒng)
- 利用語句結(jié)構(gòu)信息的機(jī)器翻譯自動(dòng)評測系統(tǒng)及實(shí)現(xiàn)方法
- 一種翻譯文件的比對方法
- 一種翻譯方法及系統(tǒng)
- 一種譯文檢測方法、裝置及電子設(shè)備
- 譯文質(zhì)量檢測方法、裝置、機(jī)器翻譯系統(tǒng)和存儲(chǔ)介質(zhì)
- 面向翻譯譯文的自動(dòng)評分方法及自動(dòng)評分系統(tǒng)
- 一種文本顯示方法及相關(guān)設(shè)備
- 文檔翻譯方法和裝置、存儲(chǔ)介質(zhì)和電子設(shè)備
- 機(jī)器翻譯效果評測方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)
- 基于xml的腳本語言轉(zhuǎn)換方法、編輯器、設(shè)備及存儲(chǔ)介質(zhì)





