[發(fā)明專利]一種基于Transformer模型的機(jī)器翻譯模型優(yōu)化方法有效
申請(qǐng)?zhí)枺?/td> | 202110361317.8 | 申請(qǐng)日: | 2021-04-02 |
公開(公告)號(hào): | CN113051938B | 公開(公告)日: | 2022-03-01 |
發(fā)明(設(shè)計(jì))人: | 孫亞楠;馮犇;吳杰;李思毅 | 申請(qǐng)(專利權(quán))人: | 四川大學(xué) |
主分類號(hào): | G06F40/58 | 分類號(hào): | G06F40/58;G06F40/284;G06F40/253;G06F40/30;G06N3/00 |
代理公司: | 北京正華智誠專利代理事務(wù)所(普通合伙) 11870 | 代理人: | 代維凡 |
地址: | 610064 四川*** | 國省代碼: | 四川;51 |
權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
摘要: | |||
搜索關(guān)鍵詞: | 一種 基于 transformer 模型 機(jī)器翻譯 優(yōu)化 方法 | ||
1.一種基于Transformer模型的機(jī)器翻譯模型優(yōu)化方法,其特征在于,包括如下步驟:
S1、初始化具有多個(gè)不同結(jié)構(gòu)和參數(shù)的Transformer模型的種群作為父代模型種群,具體方式為:
S11、在隨機(jī)范圍內(nèi)分別隨機(jī)選擇多個(gè)所述Transformer模型中編碼器和解碼器中的候選塊;
S12、依次隨機(jī)選擇所述步驟S11中編碼器的一個(gè)候選塊,并按照所選擇的候選塊的順序連接形成新的編碼器,其中每個(gè)候選塊中的參數(shù)均為隨機(jī)生成;
S13、依次隨機(jī)選擇所述步驟S11中解碼器的一個(gè)候選塊,并按照所選擇的候選快的順序連接形成新的解碼器,其中每個(gè)候選塊中的參數(shù)均為隨機(jī)生成;
S14、將步驟S12中所形成的新的編碼器及步驟S13中所形成的新的解碼器按照Transformer模型構(gòu)架的方式重新連接形成新的Transformer模型;
S15、重復(fù)步驟S11-14形成具有多個(gè)不同結(jié)構(gòu)和參數(shù)的Transformer模型的種群;
S2、利用BLEU算法計(jì)算所述父代模型種群中的每個(gè)Transformer模型詞向量學(xué)習(xí)能力評(píng)估指標(biāo),具體方式為:
S21、獲取通過步驟S15所形成的多個(gè)Transformer模型的預(yù)測(cè)譯文以及與之對(duì)應(yīng)的參考譯文;
S22、將每個(gè)Transformer模型所生成的預(yù)測(cè)譯文中多個(gè)單詞進(jìn)行組合形成多個(gè)預(yù)測(cè)元組,并將參考譯文中多個(gè)單詞進(jìn)行組合形成多個(gè)參考元組,所述預(yù)測(cè)元組中所選擇的單詞數(shù)量與所述參考元組中所選擇的單詞數(shù)量保持一致且重復(fù)選擇多次不同數(shù)量的單詞;
S23、判斷同數(shù)量單詞數(shù)條件下參考譯文中的元組在每個(gè)Transformer模型的預(yù)測(cè)譯文中出現(xiàn)的次數(shù),根據(jù)次數(shù)的多少計(jì)算每個(gè)Transformer模型詞向量學(xué)習(xí)能力評(píng)估指標(biāo);
S3、根據(jù)步驟S2的詞向量學(xué)習(xí)能力評(píng)估指標(biāo)大小從父代模型種群中選擇父代個(gè)體,并使用交叉變異算子生成子代個(gè)體種群,同時(shí)利用BLEU算法計(jì)算子代個(gè)體種群中每個(gè)模型的詞向量學(xué)習(xí)能力評(píng)估指標(biāo),
S4、對(duì)所述父代個(gè)體和子代個(gè)體進(jìn)行環(huán)境選擇生成新的模型種群,并根據(jù)所述步驟S2和步驟S3進(jìn)行多輪迭代進(jìn)化,直至滿足迭代終止條件,具體方式為:
S41、根據(jù)父代模型種群和子代模型種群中的每個(gè)Transformer模型詞向量學(xué)習(xí)能力評(píng)估指標(biāo)高低選擇排名高于設(shè)定閾值的Transformer模型直接放入下一代模型種群中;
S42、對(duì)剩余的Transformer模型使用輪盤賭算法選取多個(gè)個(gè)體放入下一代模型種群中;
S43、重復(fù)步驟S3直至滿足迭代終止條件;
S5、選擇最后一代中的最優(yōu)個(gè)體進(jìn)行機(jī)器翻譯任務(wù)。
2.根據(jù)權(quán)利要求1所述的基于Transformer模型的機(jī)器翻譯模型優(yōu)化方法,其特征在于,所述步驟S23中每個(gè)Transformer模型詞向量學(xué)習(xí)能力評(píng)估指標(biāo)計(jì)算方式表示為:
其中,N表示元組中的詞組個(gè)數(shù),Wn為n個(gè)詞組階別的加權(quán)系數(shù),Pn為n個(gè)詞組階別下參考譯文中的元組出現(xiàn)在預(yù)測(cè)譯文中的個(gè)數(shù);
BP為短句懲罰系數(shù),c為預(yù)測(cè)譯文長度,r為參考譯文長度。
3.根據(jù)權(quán)利要求2所述的基于Transformer模型的機(jī)器翻譯模型優(yōu)化方法,其特征在于,所述步驟S3具體為:
S31、從父代模型種群中隨機(jī)選擇兩個(gè)個(gè)體,并選擇其中詞向量學(xué)習(xí)能力評(píng)估指標(biāo)更高的個(gè)體作為第一父代個(gè)體,并采用同樣的方法選擇出第二父代個(gè)體;
S32、隨機(jī)生成0-1之間的一個(gè)數(shù),判定該數(shù)是否落在交叉概率之內(nèi);
S33、若步驟S32所生成的數(shù)在交叉概率之內(nèi),則直接將步驟S31所選擇的兩個(gè)父代個(gè)體作為下一代種群中個(gè)體;若不在交叉概率之內(nèi),則對(duì)步驟S31所選擇的兩個(gè)父代個(gè)體使用交叉操作生成下一代種群個(gè)體;
S34、重復(fù)步驟S31-S33生成下一代種群的所有個(gè)體,使用變異算子對(duì)其中的每一個(gè)個(gè)體進(jìn)行變異操作得到子代個(gè)體。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于四川大學(xué),未經(jīng)四川大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110361317.8/1.html,轉(zhuǎn)載請(qǐng)聲明來源鉆瓜專利網(wǎng)。
- 基于Transformer+LSTM神經(jīng)網(wǎng)絡(luò)模型的商品銷量預(yù)測(cè)方法及裝置
- 一種基于Transformer模型自然場(chǎng)景文字識(shí)別方法
- 一種深度Transformer級(jí)聯(lián)神經(jīng)網(wǎng)絡(luò)模型壓縮算法
- 點(diǎn)云分割方法、系統(tǒng)、介質(zhì)、計(jì)算機(jī)設(shè)備、終端及應(yīng)用
- 基于Transformer的中文智能對(duì)話方法
- 一種基于改進(jìn)Transformer模型的飛行器故障診斷方法和系統(tǒng)
- 一種基于Transformer模型的機(jī)器翻譯模型優(yōu)化方法
- 基于Transformer和增強(qiáng)交互型MPNN神經(jīng)網(wǎng)絡(luò)的小分子表示學(xué)習(xí)方法
- 基于U-Transformer多層次特征重構(gòu)的異常檢測(cè)方法及系統(tǒng)
- 基于EfficientDet和Transformer的航空?qǐng)D像中的飛機(jī)檢測(cè)方法
- 一種用于提高機(jī)器翻譯質(zhì)量的裝置和方法
- 機(jī)器翻譯方法和裝置
- 一種ERP術(shù)語機(jī)器翻譯方法
- 機(jī)器翻譯引擎推薦方法及裝置
- 神經(jīng)機(jī)器翻譯模型的訓(xùn)練方法、裝置及存儲(chǔ)介質(zhì)
- 基于機(jī)器翻譯引擎的翻譯方法及裝置
- 一種基于篇章的機(jī)器翻譯引擎測(cè)評(píng)優(yōu)選方法及系統(tǒng)
- 機(jī)器翻譯引擎服務(wù)恢復(fù)方法及裝置
- 一種基于預(yù)訓(xùn)練的稀缺資源神經(jīng)機(jī)器翻譯訓(xùn)練方法
- 基于混合策略的移動(dòng)設(shè)備機(jī)器翻譯系統(tǒng)