[發(fā)明專(zhuān)利]一種基于多語(yǔ)種機(jī)器翻譯的數(shù)據(jù)增強(qiáng)方法及系統(tǒng)在審
| 申請(qǐng)?zhí)枺?/td> | 202110132065.1 | 申請(qǐng)日: | 2021-01-31 |
| 公開(kāi)(公告)號(hào): | CN112749570A | 公開(kāi)(公告)日: | 2021-05-04 |
| 發(fā)明(設(shè)計(jì))人: | 丁穎;孫見(jiàn)青;梁家恩 | 申請(qǐng)(專(zhuān)利權(quán))人: | 云知聲智能科技股份有限公司;廈門(mén)云知芯智能科技有限公司 |
| 主分類(lèi)號(hào): | G06F40/58 | 分類(lèi)號(hào): | G06F40/58;G06F40/289;G06N3/02 |
| 代理公司: | 暫無(wú)信息 | 代理人: | 暫無(wú)信息 |
| 地址: | 100096 北京市海*** | 國(guó)省代碼: | 北京;11 |
| 權(quán)利要求書(shū): | 查看更多 | 說(shuō)明書(shū): | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 語(yǔ)種 機(jī)器翻譯 數(shù)據(jù) 增強(qiáng) 方法 系統(tǒng) | ||
本發(fā)明涉及一種基于多語(yǔ)種機(jī)器翻譯的數(shù)據(jù)增強(qiáng)方法及系統(tǒng),方法包括:利用預(yù)先訓(xùn)練的多語(yǔ)種翻譯模型將原句從源語(yǔ)言翻譯成目標(biāo)語(yǔ)言,得到概率不同的多個(gè)候選譯文,其中,源語(yǔ)言與目標(biāo)語(yǔ)言相同;保留多個(gè)候選譯文中與原句不完全相同的候選譯文作為用于訓(xùn)練相應(yīng)翻譯模型的訓(xùn)練數(shù)據(jù)。本發(fā)明由于聯(lián)合訓(xùn)練和知識(shí)遷移,多語(yǔ)種翻譯模型中低資源和零資源語(yǔ)言的翻譯受益于高資源語(yǔ)言,因此能夠獲得高質(zhì)量、多樣化的訓(xùn)練數(shù)據(jù)作為訓(xùn)練翻譯模型的訓(xùn)練資源,有利于模型性能的提高;并且,由于多語(yǔ)種翻譯模型具有多語(yǔ)種翻譯和零資源翻譯的能力,可以實(shí)現(xiàn)多個(gè)語(yǔ)種的同種語(yǔ)言間翻譯,因此只需要訓(xùn)練一個(gè)多語(yǔ)種翻譯模型即可進(jìn)行多個(gè)語(yǔ)種的數(shù)據(jù)增強(qiáng),降低資源成本。
技術(shù)領(lǐng)域
本發(fā)明涉及翻譯及人工智能領(lǐng)域,具體涉及一種基于多語(yǔ)種機(jī)器翻譯的數(shù)據(jù)增強(qiáng)方法及系統(tǒng)。
背景技術(shù)
通用的神經(jīng)機(jī)器翻譯系統(tǒng)是基于端到端Encoder-Decoder的框架,一般情況下需要大規(guī)模的平行語(yǔ)料來(lái)進(jìn)行有監(jiān)督的模型訓(xùn)練,而由于人工標(biāo)注成本較高,因此對(duì)于低資源語(yǔ)種的雙語(yǔ)語(yǔ)料,通常是利用back-translation、數(shù)據(jù)加噪等數(shù)據(jù)增強(qiáng)方法來(lái)偽造平行語(yǔ)料加入到訓(xùn)練數(shù)據(jù)中進(jìn)行訓(xùn)練,但數(shù)據(jù)加噪對(duì)于數(shù)據(jù)多樣性等提升有限;back-translation生成的數(shù)據(jù)質(zhì)量依賴于翻譯模型,而翻譯模型的效果依賴于平行語(yǔ)料規(guī)模,因此不利于低資源語(yǔ)種上的數(shù)據(jù)生成,并且當(dāng)語(yǔ)種數(shù)量增加時(shí),需要訓(xùn)練更多的翻譯模型。
發(fā)明內(nèi)容
本發(fā)明提供一種基于多語(yǔ)種機(jī)器翻譯的數(shù)據(jù)增強(qiáng)方法及系統(tǒng),能夠解決翻譯訓(xùn)練中的數(shù)據(jù)不足問(wèn)題,從而提高翻譯系統(tǒng)的翻譯性能。
本發(fā)明解決上述技術(shù)問(wèn)題的技術(shù)方案如下:
第一方面,本發(fā)明提供一種基于多語(yǔ)種機(jī)器翻譯的數(shù)據(jù)增強(qiáng)方法,包括:
利用預(yù)先訓(xùn)練的多語(yǔ)種翻譯模型將原句從源語(yǔ)言翻譯成目標(biāo)語(yǔ)言,得到概率不同的多個(gè)候選譯文,其中,所述源語(yǔ)言與目標(biāo)語(yǔ)言相同;
保留所述多個(gè)候選譯文中與所述原句不完全相同的候選譯文作為用于訓(xùn)練相應(yīng)翻譯模型的訓(xùn)練數(shù)據(jù)。
本發(fā)明的有益效果是:
1.由于聯(lián)合訓(xùn)練和知識(shí)遷移,多語(yǔ)種翻譯模型中低資源和零資源語(yǔ)言的翻譯受益于高資源語(yǔ)言,因此能夠獲得高質(zhì)量、多樣化的訓(xùn)練數(shù)據(jù)作為訓(xùn)練翻譯模型的訓(xùn)練資源,有利于模型性能的提高;
2.由于多語(yǔ)種翻譯模型具有多語(yǔ)種翻譯和零資源翻譯的能力,可以實(shí)現(xiàn)多個(gè)語(yǔ)種的同種語(yǔ)言間翻譯,因此只需要訓(xùn)練一個(gè)多語(yǔ)種翻譯模型即可進(jìn)行多個(gè)語(yǔ)種的數(shù)據(jù)增強(qiáng),降低資源成本。
進(jìn)一步,所述多個(gè)候選譯文是通過(guò)使用beam search算法生成的。
上述進(jìn)一步內(nèi)容的有益效果是,通過(guò)使用beam search可以提高生成候選譯文時(shí)的搜索效率,降低內(nèi)存需求。
進(jìn)一步,所述多語(yǔ)種翻譯模型的采用基于神經(jīng)網(wǎng)絡(luò)編碼器-解碼器的機(jī)器翻譯模型。
上述進(jìn)一步內(nèi)容的有益效果是,采用基于神經(jīng)網(wǎng)絡(luò)的機(jī)器翻譯模型,能夠大大降低翻譯成本,提高翻譯效率。
進(jìn)一步,該方法還包括:
若所述多個(gè)候選譯文中均與所述原句完全相同,則舍棄所述原句。
上述進(jìn)一步內(nèi)容的有益效果是,當(dāng)候選譯文均與原句完全相同的時(shí),無(wú)法達(dá)到擴(kuò)展訓(xùn)練資源的目的,這種情況下,則需要舍棄該原句。
第二方面,本發(fā)明提供一種基于多語(yǔ)種機(jī)器翻譯的數(shù)據(jù)增強(qiáng)系統(tǒng),包括:
原句翻譯模塊,用于利用預(yù)先訓(xùn)練的多語(yǔ)種翻譯模型將原句從源語(yǔ)言翻譯成目標(biāo)語(yǔ)言,得到概率不同的多個(gè)候選譯文,其中,所述源語(yǔ)言與目標(biāo)語(yǔ)言相同;
該專(zhuān)利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專(zhuān)利權(quán)人授權(quán)。該專(zhuān)利全部權(quán)利屬于云知聲智能科技股份有限公司;廈門(mén)云知芯智能科技有限公司,未經(jīng)云知聲智能科技股份有限公司;廈門(mén)云知芯智能科技有限公司許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買(mǎi)此專(zhuān)利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110132065.1/2.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專(zhuān)利網(wǎng)。
- 支持多語(yǔ)種接口的電子裝置及方法
- 一種模塊化語(yǔ)種解析裝置及其實(shí)現(xiàn)方法
- 一種終端語(yǔ)種的配置方法及裝置
- 一種多語(yǔ)種文字歸碼轉(zhuǎn)傳裝置及方法
- 一種語(yǔ)種識(shí)別方法、裝置、翻譯機(jī)、介質(zhì)和設(shè)備
- 自動(dòng)識(shí)別語(yǔ)種的翻譯方法、裝置及設(shè)備
- 一種語(yǔ)種識(shí)別模型訓(xùn)練、語(yǔ)種識(shí)別的方法和相關(guān)裝置
- 語(yǔ)種識(shí)別方法、裝置、電子設(shè)備和存儲(chǔ)介質(zhì)
- 語(yǔ)種識(shí)別方法
- 人機(jī)對(duì)話方法、裝置、計(jì)算機(jī)設(shè)備及可讀存儲(chǔ)介質(zhì)
- 一種用于提高機(jī)器翻譯質(zhì)量的裝置和方法
- 機(jī)器翻譯方法和裝置
- 一種ERP術(shù)語(yǔ)機(jī)器翻譯方法
- 機(jī)器翻譯引擎推薦方法及裝置
- 神經(jīng)機(jī)器翻譯模型的訓(xùn)練方法、裝置及存儲(chǔ)介質(zhì)
- 基于機(jī)器翻譯引擎的翻譯方法及裝置
- 一種基于篇章的機(jī)器翻譯引擎測(cè)評(píng)優(yōu)選方法及系統(tǒng)
- 機(jī)器翻譯引擎服務(wù)恢復(fù)方法及裝置
- 一種基于預(yù)訓(xùn)練的稀缺資源神經(jīng)機(jī)器翻譯訓(xùn)練方法
- 基于混合策略的移動(dòng)設(shè)備機(jī)器翻譯系統(tǒng)
- 數(shù)據(jù)顯示系統(tǒng)、數(shù)據(jù)中繼設(shè)備、數(shù)據(jù)中繼方法、數(shù)據(jù)系統(tǒng)、接收設(shè)備和數(shù)據(jù)讀取方法
- 數(shù)據(jù)記錄方法、數(shù)據(jù)記錄裝置、數(shù)據(jù)記錄媒體、數(shù)據(jù)重播方法和數(shù)據(jù)重播裝置
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)發(fā)送系統(tǒng)、數(shù)據(jù)發(fā)送裝置以及數(shù)據(jù)結(jié)構(gòu)
- 數(shù)據(jù)顯示系統(tǒng)、數(shù)據(jù)中繼設(shè)備、數(shù)據(jù)中繼方法及數(shù)據(jù)系統(tǒng)
- 數(shù)據(jù)嵌入裝置、數(shù)據(jù)嵌入方法、數(shù)據(jù)提取裝置及數(shù)據(jù)提取方法
- 數(shù)據(jù)管理裝置、數(shù)據(jù)編輯裝置、數(shù)據(jù)閱覽裝置、數(shù)據(jù)管理方法、數(shù)據(jù)編輯方法以及數(shù)據(jù)閱覽方法
- 數(shù)據(jù)發(fā)送和數(shù)據(jù)接收設(shè)備、數(shù)據(jù)發(fā)送和數(shù)據(jù)接收方法
- 數(shù)據(jù)發(fā)送裝置、數(shù)據(jù)接收裝置、數(shù)據(jù)收發(fā)系統(tǒng)、數(shù)據(jù)發(fā)送方法、數(shù)據(jù)接收方法和數(shù)據(jù)收發(fā)方法
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)再現(xiàn)方法、數(shù)據(jù)發(fā)送裝置及數(shù)據(jù)再現(xiàn)裝置
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)再現(xiàn)方法、數(shù)據(jù)發(fā)送裝置及數(shù)據(jù)再現(xiàn)裝置





