[發(fā)明專利]一種翻譯模型的訓(xùn)練方法及裝置在審
| 申請(qǐng)?zhí)枺?/td> | 202011099831.0 | 申請(qǐng)日: | 2020-10-15 |
| 公開(公告)號(hào): | CN111931518A | 公開(公告)日: | 2020-11-13 |
| 發(fā)明(設(shè)計(jì))人: | 李長(zhǎng)亮;郭馨澤 | 申請(qǐng)(專利權(quán))人: | 北京金山數(shù)字娛樂科技有限公司 |
| 主分類號(hào): | G06F40/47 | 分類號(hào): | G06F40/47;G06F40/126;G06N3/04 |
| 代理公司: | 北京智信禾專利代理有限公司 11637 | 代理人: | 劉曉楠 |
| 地址: | 100085 北京市海淀區(qū)*** | 國(guó)省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 翻譯 模型 訓(xùn)練 方法 裝置 | ||
1.一種翻譯模型的訓(xùn)練方法,其特征在于,所述翻譯模型包括編碼器和解碼器,所述編碼器包括n個(gè)順次連接的編碼層,所述解碼器包括n個(gè)順次連接的解碼層,對(duì)于每個(gè)所述編碼層和每個(gè)所述解碼層的自注意力子層,第i個(gè)編碼層的自注意力子層與第i個(gè)解碼層的自注意力子層共享自注意力參數(shù),其中,n≥1,1≤i≤n;
所述翻譯模型的訓(xùn)練方法包括:
接收訓(xùn)練數(shù)據(jù),其中,所述訓(xùn)練數(shù)據(jù)包括訓(xùn)練語句和訓(xùn)練語句對(duì)應(yīng)的目標(biāo)語句;
獲取所述訓(xùn)練語句對(duì)應(yīng)的訓(xùn)練語句向量和所述目標(biāo)語句對(duì)應(yīng)的目標(biāo)語句向量;
將所述訓(xùn)練語句向量輸入至所述編碼器中經(jīng)過編碼處理獲得編碼向量;
將所述編碼向量和所述目標(biāo)語句向量輸入至所述解碼器中經(jīng)過解碼處理獲得解碼向量,并根據(jù)所述解碼向量計(jì)算損失值;
根據(jù)所述損失值調(diào)整所述翻譯模型的參數(shù),繼續(xù)訓(xùn)練所述翻譯模型,直至達(dá)到訓(xùn)練停止條件。
2.如權(quán)利要求1所述的翻譯模型的訓(xùn)練方法,其特征在于,所述編碼器還包括第一嵌入層,所述解碼器還包括第二嵌入層;
獲取所述訓(xùn)練語句對(duì)應(yīng)的訓(xùn)練語句向量和所述目標(biāo)語句對(duì)應(yīng)的目標(biāo)語句向量,包括:
將所述訓(xùn)練語句輸入至所述第一嵌入層做嵌入化處理獲得訓(xùn)練語句向量;
將所述目標(biāo)語句輸入至所述第二嵌入層做嵌入化處理獲得目標(biāo)語句向量。
3.如權(quán)利要求1所述的翻譯模型的訓(xùn)練方法,其特征在于,根據(jù)所述解碼向量計(jì)算損失值,包括:
將所述解碼向量與預(yù)設(shè)的向量驗(yàn)證集進(jìn)行對(duì)比,得到所述解碼向量的損失值。
4.如權(quán)利要求1所述的翻譯模型的訓(xùn)練方法,其特征在于,每個(gè)解碼層還包括編碼-解碼注意力子層和前饋神經(jīng)網(wǎng)絡(luò)子層,每個(gè)編碼層還包括前饋神經(jīng)網(wǎng)絡(luò)子層;
根據(jù)所述損失值調(diào)整所述翻譯模型的參數(shù),包括:
根據(jù)所述損失值依次調(diào)整每個(gè)所述解碼層的自注意力子層的自注意力參數(shù)、編碼-解碼注意力子層的編碼-解碼注意力參數(shù)和前饋神經(jīng)網(wǎng)絡(luò)子層的前饋神經(jīng)參數(shù);
根據(jù)所述損失值依次調(diào)整每個(gè)所述編碼層的自注意力層的自注意力參數(shù)和前饋神經(jīng)網(wǎng)絡(luò)子層的前饋神經(jīng)參數(shù)。
5.如權(quán)利要求1所述的翻譯模型的訓(xùn)練方法,其特征在于,將所述訓(xùn)練語句向量輸入至所述編碼器中經(jīng)過編碼處理獲得編碼向量,包括:
S51、將所述訓(xùn)練語句向量輸入至所述編碼器的第1個(gè)編碼層,得到所述第1個(gè)編碼層輸出的編碼向量;
S52、將第t-1個(gè)編碼層輸出的編碼向量輸入至第t個(gè)編碼層,得到第t個(gè)編碼層輸出的編碼向量,其中2≤t≤n;
S53、將t自增1,判斷t是否大于n,若是,則獲得編碼向量,若否,繼續(xù)執(zhí)行步驟S52。
6.如權(quán)利要求1所述的翻譯模型的訓(xùn)練方法,其特征在于,將所述編碼向量和所述目標(biāo)語句向量輸入至所述解碼器中經(jīng)過解碼處理獲得解碼向量,包括:
S61、將所述編碼向量和所述目標(biāo)語句向量輸入至所述解碼器的第1個(gè)解碼層,得到所述第1個(gè)解碼層輸出的解碼向量;
S62、將所述編碼向量和第j-1個(gè)解碼層輸出的解碼向量輸入至第j個(gè)解碼層,得到第j個(gè)解碼層輸出的解碼向量,其中2≤j≤n;
S63、將j自增1,判斷j是否大于n,若是,則獲得解碼向量,若否,繼續(xù)執(zhí)行步驟S62。
7.如權(quán)利要求1所述的翻譯模型的訓(xùn)練方法,其特征在于,所述編碼器的前m個(gè)編碼層和后m個(gè)編碼層對(duì)應(yīng)共享編碼參數(shù),和/或,所述解碼器的前p個(gè)解碼層和后p個(gè)解碼層對(duì)應(yīng)共享解碼參數(shù),其中,2m≤n,2p≤n。
8.如權(quán)利要求7所述的翻譯模型的訓(xùn)練方法,其特征在于,所述編碼器的前m個(gè)編碼層和后m個(gè)編碼層一一對(duì)應(yīng)地共享編碼參數(shù),和/或,所述解碼器的前p個(gè)解碼層和后p個(gè)解碼層一一對(duì)應(yīng)地共享解碼參數(shù)。
9.如權(quán)利要求8所述的翻譯模型的訓(xùn)練方法,其特征在于,所述編碼器的前m個(gè)編碼層和后m個(gè)編碼層一一對(duì)應(yīng)地共享自注意力參數(shù),和/或,所述解碼器的前p個(gè)解碼層和后p個(gè)解碼層一一對(duì)應(yīng)地共享自注意力參數(shù)。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于北京金山數(shù)字娛樂科技有限公司,未經(jīng)北京金山數(shù)字娛樂科技有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011099831.0/1.html,轉(zhuǎn)載請(qǐng)聲明來源鉆瓜專利網(wǎng)。
- 一種數(shù)據(jù)庫讀寫分離的方法和裝置
- 一種手機(jī)動(dòng)漫人物及背景創(chuàng)作方法
- 一種通訊綜合測(cè)試終端的測(cè)試方法
- 一種服裝用人體測(cè)量基準(zhǔn)點(diǎn)的獲取方法
- 系統(tǒng)升級(jí)方法及裝置
- 用于虛擬和接口方法調(diào)用的裝置和方法
- 線程狀態(tài)監(jiān)控方法、裝置、計(jì)算機(jī)設(shè)備和存儲(chǔ)介質(zhì)
- 一種JAVA智能卡及其虛擬機(jī)組件優(yōu)化方法
- 檢測(cè)程序中方法耗時(shí)的方法、裝置及存儲(chǔ)介質(zhì)
- 函數(shù)的執(zhí)行方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)





