[發(fā)明專利]神經(jīng)網(wǎng)絡(luò)機(jī)器翻譯模型的訓(xùn)練方法、裝置及存儲(chǔ)介質(zhì)在審
| 申請(qǐng)?zhí)枺?/td> | 201811535879.4 | 申請(qǐng)日: | 2018-12-14 |
| 公開(公告)號(hào): | CN111401079A | 公開(公告)日: | 2020-07-10 |
| 發(fā)明(設(shè)計(jì))人: | 周龍;周玉;楊里 | 申請(qǐng)(專利權(quán))人: | 波音公司;中國科學(xué)院自動(dòng)化研究所 |
| 主分類號(hào): | G06F40/56 | 分類號(hào): | G06F40/56;G06F40/58;G06N3/04;G06N3/08 |
| 代理公司: | 北京康信知識(shí)產(chǎn)權(quán)代理有限責(zé)任公司 11240 | 代理人: | 梁麗超;劉彬 |
| 地址: | 美國伊*** | 國省代碼: | 暫無信息 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 神經(jīng)網(wǎng)絡(luò) 機(jī)器翻譯 模型 訓(xùn)練 方法 裝置 存儲(chǔ) 介質(zhì) | ||
本申請(qǐng)公開了一種神經(jīng)網(wǎng)絡(luò)機(jī)器翻譯模型的訓(xùn)練方法、裝置及存儲(chǔ)介質(zhì)。該方法包括:分別對(duì)第一句子的頭部和第二句子的頭部添加標(biāo)簽,其中,第一句子和第二句子構(gòu)成雙語句子對(duì),標(biāo)簽將第一句子和第二句子標(biāo)識(shí)為以下四個(gè)方向中的一個(gè)方向:源端?目標(biāo)端、目標(biāo)端?源端、從左到右、從右到左;使用第一句子和第二句子構(gòu)成四個(gè)方向上的訓(xùn)練模型;采用多任務(wù)訓(xùn)練方法,利用四個(gè)方向上的訓(xùn)練模型,對(duì)神經(jīng)網(wǎng)絡(luò)機(jī)器翻譯模型中的單一目標(biāo)訓(xùn)練函數(shù)進(jìn)行訓(xùn)練。通過在四個(gè)方向上訓(xùn)練神經(jīng)網(wǎng)絡(luò)機(jī)器翻譯模型,可以在減少模型參數(shù)的同時(shí)實(shí)現(xiàn)多個(gè)方向上的翻譯任務(wù)。
技術(shù)領(lǐng)域
本發(fā)明涉及機(jī)器翻譯領(lǐng)域。具體地,本發(fā)明涉及形成神經(jīng)網(wǎng)絡(luò)機(jī)器翻 譯模型的訓(xùn)練方法、裝置及存儲(chǔ)介質(zhì)。
背景技術(shù)
機(jī)器翻譯是指利用計(jì)算機(jī)將一種自然語言翻譯成另一種具有相同語 義的自然語言,它是人工智能和自然語言處理領(lǐng)域的重要研究方向之一。 被翻譯的語言通常稱為源語言,翻譯成的結(jié)果語言稱為目標(biāo)語言。機(jī)器翻譯 就是實(shí)現(xiàn)從源語言到目標(biāo)語言轉(zhuǎn)換的過程。通常,機(jī)器翻譯的系統(tǒng)框架可 以分為兩類:基于規(guī)則的機(jī)器翻譯(Rule based MachineTranslation,RBMT) 和基于語料庫的機(jī)器翻譯(Corpus based Machine Translation,CBMT)。其 中CBMT又可分為基于實(shí)例的機(jī)器翻譯(Example based Machine Translation,EBMT)、基于統(tǒng)計(jì)的機(jī)器翻譯(Statistical based Machine Translation,SMT)以及近年流行的利用深度訓(xùn)練模型所構(gòu)建的神經(jīng)網(wǎng)絡(luò) 機(jī)器翻譯(Neural Machine Translation,NMT)。
基于統(tǒng)計(jì)的機(jī)器翻譯方法實(shí)際上將源文本和目標(biāo)文本之間的翻譯看 成是一個(gè)概率對(duì)照的關(guān)系,試圖用純數(shù)學(xué)的概率統(tǒng)計(jì)來獲取訓(xùn)練語料中的 翻譯對(duì)應(yīng)關(guān)系。它的任務(wù)就是在所有可能的目標(biāo)語言的句子中,尋找概率 最大的句子作為翻譯結(jié)果。統(tǒng)計(jì)機(jī)器翻譯由最初的基于詞的翻譯模型,發(fā) 展到基于短語的翻譯模型、基于層次短語的翻譯模型、基于句法的翻譯模 型和基于語義的翻譯模型。
神經(jīng)機(jī)器翻譯是指直接采用神經(jīng)網(wǎng)絡(luò)以端到端(End-to-End)方式進(jìn) 行翻譯建模的機(jī)器翻譯方法,其基本思想是使用神經(jīng)網(wǎng)絡(luò)直接將源語言映 射成目標(biāo)語言文本。英國牛津大學(xué)的Nal Kalchbrenner和Phil Blunsom于 2013年首先提出了端到端的神經(jīng)翻譯模型。他們?yōu)闄C(jī)器翻譯提出了一個(gè) “編碼器-解碼器”的新框架:給定一個(gè)源語言句子,首先使用一個(gè)編碼器將 其映射為一個(gè)連續(xù)、稠密的向量,然后再使用一個(gè)解碼器將該向量轉(zhuǎn)化為一個(gè)目標(biāo)語言句子。隨著深度訓(xùn)練技術(shù)的發(fā)展,神經(jīng)機(jī)器翻譯模型被廣泛 研究,并展現(xiàn)出了相較于統(tǒng)計(jì)機(jī)器翻譯模型的巨大優(yōu)勢(shì)。
神經(jīng)機(jī)器翻譯在翻譯性能上的不斷提升,也促進(jìn)了工業(yè)界機(jī)器翻譯的 發(fā)展。Junczys-Dowmunt等人在聯(lián)合國平行語料庫(United Nations Parallel Corpus v1.0)30個(gè)語言對(duì)上開展了對(duì)比工作。實(shí)驗(yàn)表明,以BLEU值為評(píng) 測(cè)指標(biāo),與傳統(tǒng)的統(tǒng)計(jì)機(jī)器翻譯相比,神經(jīng)機(jī)器翻譯具有壓倒性的優(yōu)勢(shì): 神經(jīng)機(jī)器翻譯在27個(gè)語言對(duì)上超過了基于短語的統(tǒng)計(jì)機(jī)器翻譯,僅在2 個(gè)語言對(duì)上以微弱的劣勢(shì)落敗。值得注意的是,神經(jīng)機(jī)器翻譯在涉及漢語 的翻譯任務(wù)上比基于短語的統(tǒng)計(jì)機(jī)器翻譯系統(tǒng)能夠提高4至9個(gè)BLEU 點(diǎn),性能提高尤其顯著。從2015年以來,神經(jīng)網(wǎng)絡(luò)機(jī)器翻譯已經(jīng)取代統(tǒng) 計(jì)機(jī)器翻譯成為百度、谷歌、搜狗等商用在線翻譯系統(tǒng)的核心技術(shù)。
近年來,研究者提出了各種新穎的神經(jīng)網(wǎng)絡(luò)組件以提高最終的翻譯質(zhì) 量,如遞歸神經(jīng)網(wǎng)絡(luò)、卷積神經(jīng)網(wǎng)絡(luò)以及基于自注意力機(jī)制的神經(jīng)網(wǎng)絡(luò)。 然而不管是哪一種形式,它們?nèi)晕疵撾x編碼器-解碼器的整體框架,即采 用編碼器編碼源語言的信息,采用解碼器編碼目標(biāo)語言的信息。這種語言 相關(guān)的解碼器-編碼器模型框架沒有利用編碼器和解碼器結(jié)構(gòu)的相似性, 一方面造成了大量參數(shù)的冗余,使得模型龐大難以訓(xùn)練;另一方面它只能 執(zhí)行一個(gè)方向上的翻譯任務(wù),沒用充分利用雙語平行數(shù)據(jù)。因此,如何利 用模型的對(duì)偶性減少模型參數(shù),并充分運(yùn)用數(shù)據(jù)的對(duì)偶性,是一個(gè)非常值 得研究的問題。
發(fā)明內(nèi)容
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于波音公司;中國科學(xué)院自動(dòng)化研究所,未經(jīng)波音公司;中國科學(xué)院自動(dòng)化研究所許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201811535879.4/2.html,轉(zhuǎn)載請(qǐng)聲明來源鉆瓜專利網(wǎng)。
- 硬件神經(jīng)網(wǎng)絡(luò)轉(zhuǎn)換方法、計(jì)算裝置、軟硬件協(xié)作系統(tǒng)
- 生成較大神經(jīng)網(wǎng)絡(luò)
- 神經(jīng)網(wǎng)絡(luò)的生成方法、生成裝置和電子設(shè)備
- 一種舌診方法、裝置、計(jì)算設(shè)備及計(jì)算機(jī)存儲(chǔ)介質(zhì)
- 學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)
- 脈沖神經(jīng)網(wǎng)絡(luò)轉(zhuǎn)換方法及相關(guān)轉(zhuǎn)換芯片
- 圖像處理方法、裝置、可讀存儲(chǔ)介質(zhì)和計(jì)算機(jī)設(shè)備
- 一種適應(yīng)目標(biāo)數(shù)據(jù)集的網(wǎng)絡(luò)模型微調(diào)方法、系統(tǒng)、終端和存儲(chǔ)介質(zhì)
- 用于重構(gòu)人工神經(jīng)網(wǎng)絡(luò)的處理器及其操作方法、電氣設(shè)備
- 一種圖像神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)的優(yōu)化方法及裝置
- 一種用于提高機(jī)器翻譯質(zhì)量的裝置和方法
- 機(jī)器翻譯方法和裝置
- 一種ERP術(shù)語機(jī)器翻譯方法
- 機(jī)器翻譯引擎推薦方法及裝置
- 神經(jīng)機(jī)器翻譯模型的訓(xùn)練方法、裝置及存儲(chǔ)介質(zhì)
- 基于機(jī)器翻譯引擎的翻譯方法及裝置
- 一種基于篇章的機(jī)器翻譯引擎測(cè)評(píng)優(yōu)選方法及系統(tǒng)
- 機(jī)器翻譯引擎服務(wù)恢復(fù)方法及裝置
- 一種基于預(yù)訓(xùn)練的稀缺資源神經(jīng)機(jī)器翻譯訓(xùn)練方法
- 基于混合策略的移動(dòng)設(shè)備機(jī)器翻譯系統(tǒng)





