[發(fā)明專(zhuān)利]基于Transformer模型的數(shù)據(jù)增強(qiáng)維漢機(jī)器翻譯系統(tǒng)訓(xùn)練方法和裝置在審
| 申請(qǐng)?zhí)枺?/td> | 202010226101.6 | 申請(qǐng)日: | 2020-03-27 |
| 公開(kāi)(公告)號(hào): | CN111444730A | 公開(kāi)(公告)日: | 2020-07-24 |
| 發(fā)明(設(shè)計(jì))人: | 艾山·吾買(mǎi)爾;西熱艾力·海熱拉;劉文其;盛嘉寶;早克熱·卡德?tīng)?/a>;鄭炅;徐翠云;斯拉吉艾合麥提·如則麥麥提 | 申請(qǐng)(專(zhuān)利權(quán))人: | 新疆大學(xué) |
| 主分類(lèi)號(hào): | G06F40/44 | 分類(lèi)號(hào): | G06F40/44;G06F40/58 |
| 代理公司: | 北京匯捷知識(shí)產(chǎn)權(quán)代理事務(wù)所(普通合伙) 11531 | 代理人: | 張麗 |
| 地址: | 830046 新疆維吾爾*** | 國(guó)省代碼: | 新疆;65 |
| 權(quán)利要求書(shū): | 查看更多 | 說(shuō)明書(shū): | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 基于 transformer 模型 數(shù)據(jù) 增強(qiáng) 機(jī)器翻譯 系統(tǒng) 訓(xùn)練 方法 裝置 | ||
本發(fā)明公開(kāi)了基于Transformer模型的數(shù)據(jù)增強(qiáng)維漢機(jī)器翻譯系統(tǒng)訓(xùn)練方法和裝置,Transformer模型由編碼器和解碼器兩個(gè)部分組成,其中,模型的左半邊部分是編碼器端,由6個(gè)相同的層疊加組成,每一層由兩個(gè)子層組成。右半部分是解碼器端,同解碼器由6個(gè)相同的層疊加組成,每一層由三個(gè)子層組成。大大改善了神經(jīng)機(jī)器翻譯模型在資源匱乏情況下翻譯性能不好的問(wèn)題,提高模型泛化能力。實(shí)驗(yàn)結(jié)果表明,用17萬(wàn)對(duì)維漢平行語(yǔ)料來(lái)偽造數(shù)據(jù)并進(jìn)行訓(xùn)練翻譯模型,最后所取得的翻譯質(zhì)量得到了一定的提升。
技術(shù)領(lǐng)域
本發(fā)明涉及及其翻譯技術(shù)領(lǐng)域,具體為基于Transformer模型的數(shù)據(jù)增強(qiáng)維漢機(jī)器翻譯系統(tǒng)訓(xùn)練方法和裝置。
背景技術(shù)
機(jī)器翻譯是通過(guò)機(jī)器將一種自然語(yǔ)言轉(zhuǎn)換另一種自然語(yǔ)言的過(guò)程。機(jī)器翻譯的概念提出以來(lái)大致經(jīng)歷了四個(gè)階段:基于規(guī)則的機(jī)器翻譯、基于實(shí)例的機(jī)器翻譯、基于統(tǒng)計(jì)的機(jī)器翻譯和神經(jīng)機(jī)器翻譯。傳統(tǒng)的機(jī)器翻譯方法因需要人工設(shè)定的翻譯規(guī)則、廣覆蓋面得平行語(yǔ)料,遇到了成本高,開(kāi)發(fā)周期長(zhǎng)的困難。神經(jīng)機(jī)器翻譯概念提出以后收到了眾大研究者們的關(guān)注,且神經(jīng)機(jī)器翻譯的翻譯性能超過(guò)了傳統(tǒng)的機(jī)器翻譯方法。
神經(jīng)機(jī)器翻譯方法的思想不同與統(tǒng)計(jì)機(jī)器翻譯,統(tǒng)計(jì)機(jī)器翻譯方法的主要思想是通過(guò)對(duì)大量的平行語(yǔ)料進(jìn)行統(tǒng)計(jì),構(gòu)建統(tǒng)計(jì)翻譯模型,反而神經(jīng)機(jī)器翻譯方法是先將文本轉(zhuǎn)換成數(shù)字其次對(duì)數(shù)字進(jìn)行運(yùn)算構(gòu)建神經(jīng)機(jī)器翻譯模型。文本轉(zhuǎn)換成數(shù)字的方法有離散表示和分布式表示,one-hot表示單詞的詞向量時(shí)將詞表大小設(shè)為向量長(zhǎng)度,向量中除了一個(gè)維度的值為1,其余維度值為0,但語(yǔ)義層上不能有效的表示單詞意義。2013年Google發(fā)布了Word2vec詞向量訓(xùn)練工具,Word2vec通過(guò)給定的文本數(shù)據(jù)快速有效地訓(xùn)練詞向量模型。該模型能夠表示出單詞在語(yǔ)義層上的向量,可以方便的計(jì)算出兩個(gè)單詞的相似度。Word2vec是自然語(yǔ)言處理領(lǐng)域中的里程牌,它促進(jìn)了自然語(yǔ)言處理任務(wù)中的各個(gè)任務(wù)。
神經(jīng)機(jī)器翻譯系統(tǒng)主要由編碼器和解碼器兩部分構(gòu)成,編碼器對(duì)源語(yǔ)言任意長(zhǎng)度的句子進(jìn)行編碼,解碼器將編碼器輸出的特定長(zhǎng)度向量作為輸入并解碼目標(biāo)語(yǔ)言句子。該結(jié)構(gòu)通過(guò)端到端的方式建模,用目標(biāo)函數(shù)訓(xùn)練模型的所有參數(shù)。圖1展示編碼器-解碼器模型的結(jié)構(gòu)。
由編碼器和解碼器的不同神經(jīng)機(jī)器翻譯系統(tǒng)有循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)、長(zhǎng)短期記憶(LSTM)、門(mén)控遞歸神經(jīng)網(wǎng)絡(luò)(GRU)和Transformer等幾種形式。選RNN作為編碼器的時(shí)候,一般會(huì)選用雙向RNN結(jié)構(gòu),其中正向RNN輸入序列的從左側(cè)開(kāi)始編碼,反向RNN則輸入序列的從右側(cè)開(kāi)始編碼,最終兩個(gè)編碼結(jié)果聯(lián)合起來(lái)作為輸入序列的最終分布式表示。RNN的主要思想是模型的當(dāng)前預(yù)測(cè)不僅與當(dāng)前時(shí)刻的輸入有關(guān),而且還與此輸入之前的輸入有關(guān)。當(dāng)RNN的輸入序列過(guò)長(zhǎng)時(shí),神經(jīng)元很難接收到遠(yuǎn)距離的單詞信息,從而導(dǎo)致網(wǎng)絡(luò)中出現(xiàn)梯度消失現(xiàn)象。為了解決以上問(wèn)題通常采用設(shè)置網(wǎng)絡(luò)最大能接受的最大長(zhǎng)度策略,雖然該方法能有效解決梯度消失現(xiàn)象,但不能有效處理長(zhǎng)期依賴(lài)問(wèn)題變?yōu)镽NN的弊端。
現(xiàn)有的機(jī)器翻譯依賴(lài)于大規(guī)模高質(zhì)量的平行語(yǔ)料,需要幾百萬(wàn)甚至上千萬(wàn)規(guī)模的平行語(yǔ)料進(jìn)行訓(xùn)練才能取得一定的效果。而對(duì)于維吾爾語(yǔ)這種的資源的語(yǔ)言來(lái)說(shuō),是無(wú)法獲得這么大規(guī)模的平行語(yǔ)料的。而且即使有大規(guī)模平行語(yǔ)料,基于統(tǒng)計(jì)的機(jī)器翻譯和基于LSTM的機(jī)器翻譯對(duì)長(zhǎng)句子的翻譯質(zhì)量也不高,
發(fā)明內(nèi)容
本發(fā)明的目的在于提供基于Transformer模型的數(shù)據(jù)增強(qiáng)維漢機(jī)器翻譯系統(tǒng)訓(xùn)練方法和裝置,以解決上述背景技術(shù)中提出的問(wèn)題。
為實(shí)現(xiàn)上述目的,本發(fā)明提供如下技術(shù)方案:基于Transformer模型的數(shù)據(jù)增強(qiáng)維漢機(jī)器翻譯系統(tǒng)訓(xùn)練裝置,Transformer模型由編碼器和解碼器兩個(gè)部分組成,模型的左半邊部分是編碼器端,由6個(gè)相同的層疊加組成,每一層由兩個(gè)子層組成。右半部分是解碼器端,同解碼器由6個(gè)相同的層疊加組成,每一層由三個(gè)子層組成。
該專(zhuān)利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專(zhuān)利權(quán)人授權(quán)。該專(zhuān)利全部權(quán)利屬于新疆大學(xué),未經(jīng)新疆大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買(mǎi)此專(zhuān)利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010226101.6/2.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專(zhuān)利網(wǎng)。
- 基于Transformer+LSTM神經(jīng)網(wǎng)絡(luò)模型的商品銷(xiāo)量預(yù)測(cè)方法及裝置
- 一種基于Transformer模型自然場(chǎng)景文字識(shí)別方法
- 一種深度Transformer級(jí)聯(lián)神經(jīng)網(wǎng)絡(luò)模型壓縮算法
- 點(diǎn)云分割方法、系統(tǒng)、介質(zhì)、計(jì)算機(jī)設(shè)備、終端及應(yīng)用
- 基于Transformer的中文智能對(duì)話方法
- 一種基于改進(jìn)Transformer模型的飛行器故障診斷方法和系統(tǒng)
- 一種基于Transformer模型的機(jī)器翻譯模型優(yōu)化方法
- 基于Transformer和增強(qiáng)交互型MPNN神經(jīng)網(wǎng)絡(luò)的小分子表示學(xué)習(xí)方法
- 基于U-Transformer多層次特征重構(gòu)的異常檢測(cè)方法及系統(tǒng)
- 基于EfficientDet和Transformer的航空?qǐng)D像中的飛機(jī)檢測(cè)方法
- 數(shù)據(jù)顯示系統(tǒng)、數(shù)據(jù)中繼設(shè)備、數(shù)據(jù)中繼方法、數(shù)據(jù)系統(tǒng)、接收設(shè)備和數(shù)據(jù)讀取方法
- 數(shù)據(jù)記錄方法、數(shù)據(jù)記錄裝置、數(shù)據(jù)記錄媒體、數(shù)據(jù)重播方法和數(shù)據(jù)重播裝置
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)發(fā)送系統(tǒng)、數(shù)據(jù)發(fā)送裝置以及數(shù)據(jù)結(jié)構(gòu)
- 數(shù)據(jù)顯示系統(tǒng)、數(shù)據(jù)中繼設(shè)備、數(shù)據(jù)中繼方法及數(shù)據(jù)系統(tǒng)
- 數(shù)據(jù)嵌入裝置、數(shù)據(jù)嵌入方法、數(shù)據(jù)提取裝置及數(shù)據(jù)提取方法
- 數(shù)據(jù)管理裝置、數(shù)據(jù)編輯裝置、數(shù)據(jù)閱覽裝置、數(shù)據(jù)管理方法、數(shù)據(jù)編輯方法以及數(shù)據(jù)閱覽方法
- 數(shù)據(jù)發(fā)送和數(shù)據(jù)接收設(shè)備、數(shù)據(jù)發(fā)送和數(shù)據(jù)接收方法
- 數(shù)據(jù)發(fā)送裝置、數(shù)據(jù)接收裝置、數(shù)據(jù)收發(fā)系統(tǒng)、數(shù)據(jù)發(fā)送方法、數(shù)據(jù)接收方法和數(shù)據(jù)收發(fā)方法
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)再現(xiàn)方法、數(shù)據(jù)發(fā)送裝置及數(shù)據(jù)再現(xiàn)裝置
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)再現(xiàn)方法、數(shù)據(jù)發(fā)送裝置及數(shù)據(jù)再現(xiàn)裝置





