[發(fā)明專利]面向神經(jīng)機器翻譯的數(shù)據(jù)縮減方法在審
| 申請?zhí)枺?/td> | 201810326887.1 | 申請日: | 2018-04-12 |
| 公開(公告)號: | CN108460029A | 公開(公告)日: | 2018-08-28 |
| 發(fā)明(設(shè)計)人: | 熊德意;許雪瑩 | 申請(專利權(quán))人: | 蘇州大學(xué) |
| 主分類號: | G06F17/28 | 分類號: | G06F17/28;G06F17/27 |
| 代理公司: | 蘇州市中南偉業(yè)知識產(chǎn)權(quán)代理事務(wù)所(普通合伙) 32257 | 代理人: | 馮瑞;楊慧林 |
| 地址: | 215104 江蘇*** | 國省代碼: | 江蘇;32 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 訓(xùn)練語料 機器翻譯 數(shù)據(jù)縮減 神經(jīng) 輪數(shù) 語料 平行 動態(tài)選擇 保留 預(yù)設(shè) 翻譯 返回 保證 | ||
本發(fā)明涉及一種面向神經(jīng)機器翻譯的數(shù)據(jù)縮減方法,包括:利用完整的初始語料進(jìn)行第一輪訓(xùn)練;把上一輪平行句對的訓(xùn)練損失選擇保留一部分損失最小的訓(xùn)練語料留到下一輪繼續(xù)訓(xùn)練,其中,下一輪訓(xùn)練語料的大小與上一輪訓(xùn)練語料的大小的比值β∈﹙0,1﹚;判斷已經(jīng)進(jìn)行的訓(xùn)練輪數(shù)是否小于等于預(yù)設(shè)的總的訓(xùn)練輪數(shù),若是,繼續(xù)返回步驟“把上一輪平行句對的訓(xùn)練損失選擇保留一部分損失最小的訓(xùn)練語料留到下一輪繼續(xù)訓(xùn)練,其中,下一輪訓(xùn)練語料的大小與上一輪訓(xùn)練語料的大小的比值β∈﹙0,1﹚”。上述面向神經(jīng)機器翻譯的數(shù)據(jù)縮減方法,根據(jù)現(xiàn)有的NMT的特性,是動態(tài)選擇的,保證NMT在大規(guī)模的語料上訓(xùn)練同時在速度上更快,翻譯質(zhì)量也更好。
技術(shù)領(lǐng)域
本發(fā)明涉及神經(jīng)機器翻譯,特別是涉及面向神經(jīng)機器翻譯的數(shù)據(jù)縮減方法。
背景技術(shù)
近幾年來,機器翻譯一直備受人們的關(guān)注,基于深度學(xué)習(xí)的神經(jīng)機器翻譯(NeuralMachine Translation)是近幾年的熱點,但是使用大規(guī)模的平行語料訓(xùn)練神經(jīng)機器翻譯往往需要花費很長的時間,并且在大語料中,通常會存在數(shù)據(jù)冗余或者質(zhì)量較差的語料。在原來的統(tǒng)計機器翻譯(Statistical Machine Translation)中,是通過減少數(shù)據(jù)冗余的方式來縮小語料大小,從而縮短訓(xùn)練時間,同時能達(dá)到同樣的翻譯質(zhì)量。減少數(shù)據(jù)冗余的方式是選擇一個語料子集,該子集能從某些特性上覆蓋原來的語料,這些特性不是來反映語義相似性的,而是評判句子所攜帶的信息量的,比如n-gram或者單詞。同時,也有通過減少語料中的噪音來減少語料規(guī)模,過濾那些不是互為翻譯的平行句對。
到現(xiàn)在為止,數(shù)據(jù)縮減的方法都是面向SMT的,并且都是靜態(tài)選擇方法,即抽取一個語料子集來訓(xùn)練,還未提出面向NMT的數(shù)據(jù)選擇方法。基于n-gram的方法是選擇一個語料子集,該語料子集中包含原來平行語料中所有不同的n-gram;基于單詞的方法是選擇一個語料子集,該語料子集中包含原來平行語料中所有不同的單詞,并且每個單詞出現(xiàn)的次數(shù)不低于N。這兩種方法都是基于某種特性來挑選語料子集,但是并不適用與NMT,因為在NMT系統(tǒng)中,是根據(jù)訓(xùn)練語料來生成源端與目標(biāo)端的詞表,并且詞表大小是固定的,一般設(shè)置為30000個詞,詞表中的詞一般是挑選出現(xiàn)次數(shù)最多的,我們會用統(tǒng)一的符號“UNK”來代替不在詞表中的單詞。而根據(jù)上面兩種特性挑選語料子集,一方面,會導(dǎo)致語料中的“UNK”比例增大;另一方面,可能常用詞會成為UNK。還有一種SMT的數(shù)據(jù)縮減方法,是通過使用TF-IDF來計算句子的相似性,選擇各不相似的平行句對作為訓(xùn)練子集。但是該方法使用TF-IDF來計算相似度并不準(zhǔn)確。NMT總是需要大規(guī)模的語料訓(xùn)練,在領(lǐng)域適應(yīng)性的應(yīng)用場景中,提出了一種動態(tài)選擇法,在訓(xùn)練NMT的過程中,每次訓(xùn)練完一輪語料,就根據(jù)事先賦予平行句對的權(quán)重動態(tài)地縮小語料規(guī)模。但是該方法并不是面向數(shù)據(jù)縮減提出的,句子的權(quán)重計算也不適用于數(shù)據(jù)縮減。
傳統(tǒng)技術(shù)存在以下技術(shù)問題:
現(xiàn)有的數(shù)據(jù)縮減技術(shù)主要是面向SMT的,但這些方法并不適用于NMT。現(xiàn)有技術(shù)抽取的語料子集中都包含原語料中的所有不同的單詞,但訓(xùn)練子集中并沒有原來那么多的語料來訓(xùn)練這些單詞;在NMT中,源端與目標(biāo)端詞表大小都固定為30000個單詞,而選取的訓(xùn)練子集中的單詞分布與原有的訓(xùn)練語料不同,導(dǎo)致一些有用的單詞成為UNK。基于TF-IDF來挑選訓(xùn)練子集的準(zhǔn)確度不高。而在NMT上提出的動態(tài)選擇法,能夠保證NMT在大規(guī)模語料上訓(xùn)練,這是靜態(tài)選擇法所欠缺的,但現(xiàn)有的動態(tài)選擇法只適用于領(lǐng)域適應(yīng)性場景。
發(fā)明內(nèi)容
基于此,有必要針對上述技術(shù)問題,提供一種根據(jù)現(xiàn)有的NMT的特性,提出了一個動態(tài)選擇的面向神經(jīng)機器翻譯的數(shù)據(jù)縮減方法,保證NMT在大規(guī)模的語料上訓(xùn)練同時在速度上更快,翻譯質(zhì)量也更好。
一種面向神經(jīng)機器翻譯的數(shù)據(jù)縮減方法,應(yīng)用在基于注意力機制且采用encoder-decoder框架的NMT模型,包括:
利用完整的初始語料進(jìn)行第一輪訓(xùn)練;
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于蘇州大學(xué),未經(jīng)蘇州大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810326887.1/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 一種基于語義及語法結(jié)構(gòu)的語句分析方法及系統(tǒng)
- 分詞模型訓(xùn)練方法和裝置、及存儲介質(zhì)
- 模型的自訓(xùn)練方法、裝置、計算機設(shè)備及存儲介質(zhì)
- 訓(xùn)練語料庫細(xì)化和增量更新
- 同義語料生成方法、裝置、計算機系統(tǒng)及可讀存儲介質(zhì)
- 多語言語義表示模型的訓(xùn)練方法、裝置、設(shè)備及存儲介質(zhì)
- 意圖識別模型訓(xùn)練方法、意圖識別方法、裝置及設(shè)備
- 意圖識別模型的訓(xùn)練語料生成方法及其相關(guān)設(shè)備
- 翻譯模型訓(xùn)練方法、裝置、設(shè)備及存儲介質(zhì)
- 基于預(yù)訓(xùn)練模型的機器翻譯方法及系統(tǒng)
- 圖像處理裝置、圖像攝像系統(tǒng)和圖像顯示系統(tǒng)
- 圖像處理設(shè)備、顯示設(shè)備、圖像處理方法以及圖像處理程序
- 表格相關(guān)數(shù)據(jù)縮減
- 用于捕獲廣播信號的廣播接收設(shè)備及其方法
- 坐標(biāo)測量系統(tǒng)數(shù)據(jù)縮減
- 紋理磚壓縮及解壓縮方法以及使用該方法的裝置
- 用于縮減數(shù)據(jù)集的數(shù)據(jù)縮減
- 數(shù)據(jù)縮減的方法、裝置、計算設(shè)備和存儲介質(zhì)
- 一種數(shù)據(jù)存儲方法、裝置、設(shè)備及存儲介質(zhì)
- 存儲系統(tǒng)數(shù)據(jù)縮減業(yè)務(wù)日志管理方法及相關(guān)組件
- 用于治療支氣管樹的系統(tǒng)、組件和方法
- 一種頸部神經(jīng)信號記錄方法
- 用于在激活褐色脂肪組織時抑制神經(jīng)的方法和裝置
- 一種神經(jīng)元硬件裝置及用這種裝置模擬脈沖神經(jīng)網(wǎng)絡(luò)的方法
- 神經(jīng)移植物及應(yīng)用其的神經(jīng)移植物系統(tǒng)
- 一種神經(jīng)疏通緩解裝置
- 神經(jīng)移植物及應(yīng)用其的神經(jīng)移植物系統(tǒng)
- 一種模擬神經(jīng)網(wǎng)芯片的設(shè)計方法及模擬神經(jīng)網(wǎng)芯片
- 神經(jīng)網(wǎng)絡(luò)的剪枝方法、裝置、設(shè)備及存儲介質(zhì)
- 一套無人機神經(jīng)網(wǎng)絡(luò)控制用的人工神經(jīng)元模型





