[發(fā)明專利]一種翻譯模型的訓(xùn)練方法及裝置在審
| 申請(qǐng)?zhí)枺?/td> | 202011099831.0 | 申請(qǐng)日: | 2020-10-15 |
| 公開(公告)號(hào): | CN111931518A | 公開(公告)日: | 2020-11-13 |
| 發(fā)明(設(shè)計(jì))人: | 李長亮;郭馨澤 | 申請(qǐng)(專利權(quán))人: | 北京金山數(shù)字娛樂科技有限公司 |
| 主分類號(hào): | G06F40/47 | 分類號(hào): | G06F40/47;G06F40/126;G06N3/04 |
| 代理公司: | 北京智信禾專利代理有限公司 11637 | 代理人: | 劉曉楠 |
| 地址: | 100085 北京市海淀區(qū)*** | 國省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 翻譯 模型 訓(xùn)練 方法 裝置 | ||
本申請(qǐng)?zhí)峁┮环N翻譯模型的訓(xùn)練方法及裝置,所述翻譯模型包括編碼器和解碼器,所述編碼器包括n個(gè)順次連接的編碼層,所述解碼器包括n個(gè)順次連接的解碼層,第i個(gè)編碼層的自注意力子層與第i個(gè)解碼層的自注意力子層共享自注意力參數(shù),其中,n≥1,1≤i≤n,其中所述方法包括:接收訓(xùn)練語句和訓(xùn)練語句對(duì)應(yīng)的目標(biāo)語句;獲取所述訓(xùn)練語句對(duì)應(yīng)的訓(xùn)練語句向量和所述目標(biāo)語句對(duì)應(yīng)的目標(biāo)語句向量;將所述訓(xùn)練語句向量輸入至所述編碼器中經(jīng)過編碼處理獲得編碼向量;將所述編碼向量和所述目標(biāo)語句向量輸入至所述解碼器中經(jīng)過解碼處理獲得解碼向量,并根據(jù)所述解碼向量計(jì)算損失值;根據(jù)所述損失值調(diào)整所述翻譯模型的參數(shù)。
技術(shù)領(lǐng)域
本申請(qǐng)涉及人工智能技術(shù)領(lǐng)域,特別涉及一種翻譯模型的訓(xùn)練方法及裝置、計(jì)算設(shè)備和計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)。
背景技術(shù)
隨著計(jì)算機(jī)運(yùn)算能力的提升,神經(jīng)網(wǎng)絡(luò)的應(yīng)用越來越廣泛,例如構(gòu)建翻譯模型,以實(shí)現(xiàn)待翻譯語句到目標(biāo)語句的轉(zhuǎn)換。
翻譯模型是一種端到端的網(wǎng)絡(luò)結(jié)構(gòu),包括編碼器和解碼器,編碼器包括多個(gè)編碼層,解碼器包括多個(gè)解碼層,在每個(gè)編碼層中包括自注意力子層和前饋神經(jīng)網(wǎng)絡(luò)子層,在每個(gè)解碼層中包括自注意力子層、編碼-解碼注意力子層和前饋神經(jīng)網(wǎng)絡(luò)子層,每個(gè)子層中都有各自的參數(shù)權(quán)重?,F(xiàn)有的翻譯模型結(jié)構(gòu)復(fù)雜、每個(gè)子層的參數(shù)量較大,模型體積龐大,在對(duì)翻譯模型進(jìn)行訓(xùn)練時(shí)訓(xùn)練周期長,并且消耗計(jì)算資源高。
因此,如何加快模型的訓(xùn)練速度,減少模型體積就成為技術(shù)人員目前亟待解決的問題。
發(fā)明內(nèi)容
有鑒于此,本申請(qǐng)實(shí)施例提供了一種翻譯模型的訓(xùn)練方法及裝置、計(jì)算設(shè)備和計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),以解決現(xiàn)有技術(shù)中存在的技術(shù)缺陷。
根據(jù)本申請(qǐng)實(shí)施例的第一方面,提供了一種翻譯模型的訓(xùn)練方法,所述翻譯模型包括編碼器和解碼器,所述編碼器包括n個(gè)順次連接的編碼層,所述解碼器包括n個(gè)順次連接的解碼層,對(duì)于每個(gè)所述編碼層和每個(gè)所述解碼層的自注意力子層,第i個(gè)編碼層的自注意力子層與第i個(gè)解碼層的自注意力子層共享自注意力參數(shù),其中,n≥1,1≤i≤n;
所述翻譯模型的訓(xùn)練方法包括:
接收訓(xùn)練數(shù)據(jù),其中,所述訓(xùn)練數(shù)據(jù)包括訓(xùn)練語句和訓(xùn)練語句對(duì)應(yīng)的目標(biāo)語句;
獲取所述訓(xùn)練語句對(duì)應(yīng)的訓(xùn)練語句向量和所述目標(biāo)語句對(duì)應(yīng)的目標(biāo)語句向量;
將所述訓(xùn)練語句向量輸入至所述編碼器中經(jīng)過編碼處理獲得編碼向量;
將所述編碼向量和所述目標(biāo)語句向量輸入至所述解碼器中經(jīng)過解碼處理獲得解碼向量,并根據(jù)所述解碼向量計(jì)算損失值;
根據(jù)所述損失值調(diào)整所述翻譯模型的參數(shù),繼續(xù)訓(xùn)練所述翻譯模型,直至達(dá)到訓(xùn)練停止條件。
可選的,所述編碼器還包括第一嵌入層,所述解碼器還包括第二嵌入層;
獲取所述訓(xùn)練語句對(duì)應(yīng)的訓(xùn)練語句向量和所述目標(biāo)語句對(duì)應(yīng)的目標(biāo)語句向量,包括:
將所述訓(xùn)練語句輸入至所述第一嵌入層做嵌入化處理獲得訓(xùn)練語句向量;
將所述目標(biāo)語句輸入至所述第二嵌入層做嵌入化處理獲得目標(biāo)語句向量。
可選的,根據(jù)所述解碼向量計(jì)算損失值,包括:
將所述解碼向量與預(yù)設(shè)的向量驗(yàn)證集進(jìn)行對(duì)比,得到所述解碼向量的損失值。
可選的,每個(gè)解碼層還包括編碼-解碼注意力子層和前饋神經(jīng)網(wǎng)絡(luò)子層,每個(gè)編碼層還包括前饋神經(jīng)網(wǎng)絡(luò)子層;
根據(jù)所述損失值調(diào)整所述翻譯模型的參數(shù),包括:
根據(jù)所述損失值依次調(diào)整每個(gè)所述解碼層的自注意力子層的自注意力參數(shù)、編碼-解碼注意力子層的編碼-解碼注意力參數(shù)和前饋神經(jīng)網(wǎng)絡(luò)子層的前饋神經(jīng)參數(shù);
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于北京金山數(shù)字娛樂科技有限公司,未經(jīng)北京金山數(shù)字娛樂科技有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011099831.0/2.html,轉(zhuǎn)載請(qǐng)聲明來源鉆瓜專利網(wǎng)。
- 一種數(shù)據(jù)庫讀寫分離的方法和裝置
- 一種手機(jī)動(dòng)漫人物及背景創(chuàng)作方法
- 一種通訊綜合測(cè)試終端的測(cè)試方法
- 一種服裝用人體測(cè)量基準(zhǔn)點(diǎn)的獲取方法
- 系統(tǒng)升級(jí)方法及裝置
- 用于虛擬和接口方法調(diào)用的裝置和方法
- 線程狀態(tài)監(jiān)控方法、裝置、計(jì)算機(jī)設(shè)備和存儲(chǔ)介質(zhì)
- 一種JAVA智能卡及其虛擬機(jī)組件優(yōu)化方法
- 檢測(cè)程序中方法耗時(shí)的方法、裝置及存儲(chǔ)介質(zhì)
- 函數(shù)的執(zhí)行方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)





