[發(fā)明專利]一種基于Transformer模型的機器翻譯模型優(yōu)化方法有效

申請?zhí)枺?/td>	202110361317.8	申請日：	2021-04-02
公開（公告）號：	CN113051938B	公開（公告）日：	2022-03-01
發(fā)明（設計）人：	孫亞楠;馮犇;吳杰;李思毅	申請（專利權）人：	四川大學
主分類號：	G06F40/58	分類號：	G06F40/58;G06F40/284;G06F40/253;G06F40/30;G06N3/00
代理公司：	北京正華智誠專利代理事務所(普通合伙) 11870	代理人：	代維凡
地址：	610064 四川***	國省代碼：	四川;51
權利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關鍵詞：	一種基于 transformer 模型機器翻譯優(yōu)化方法
鉆瓜網(wǎng) 技術展會專利詞庫專利權人專利榜在售專利公布日期熱門專利

【說明書】：

本發(fā)明公開了一種基于Transformer模型的機器翻譯模型優(yōu)化方法，通過設計變長編碼和候選塊讓Transformer個體具有不同的結構和參數(shù)，為詞向量的學習提供多種候選模型；而后設計了交叉變異策略讓Transformer個體能夠進行信息交流，讓處理詞向量的優(yōu)秀結構或參數(shù)可以遺傳給下一代；之后設計了環(huán)境選擇策略產(chǎn)生下一代Transformer個體，淘汰學習詞向量效果相對較差的模型，保留學習詞向量效果較為優(yōu)秀的模型；之后不斷迭代演化搜索找到學習詞向量效果最優(yōu)的Transformer模型，用于最終解決機器翻譯任務，使得Transformer模型能夠更好的學習機器翻譯任務中的詞向量表達，提高機器翻譯任務的精度。

技術領域

本發(fā)明涉及演化計算領域，具體涉及一種基于Transformer模型的機器翻譯模型優(yōu)化方法。

背景技術

Transformer是由谷歌再2017年提出的用于解決機器翻譯任務的一種序列到序列，在Transformer提出之前，機器翻譯模型可以分為兩類：基于回饋式神經(jīng)網(wǎng)絡的模型或者基于卷積的序列回歸模型。基于回饋式神經(jīng)網(wǎng)絡的模型大多由RNN或LSTM結構組成,模型中每一層中的輸入都依賴于前一層的輸出狀態(tài)，這種順序計算約束導致基于回饋式神經(jīng)網(wǎng)絡的模型在訓練和預測過程中都需要耗費大量的時間和計算資源；基于卷積的網(wǎng)絡模型由多層卷積神經(jīng)網(wǎng)絡構成，這種模型在計算長距離信息的關系時卷積操作數(shù)會迅速增長，例如在ByteNet中是指數(shù)級增長。

Transformer利用多頭注意力機制(MHA)和前饋式神經(jīng)網(wǎng)絡(FFN)解決了上述兩個模型的缺點，可以通過更少的計算資源學習機器翻譯中的詞向量，獲取更高的翻譯精度。雖然Transformer模型已經(jīng)在機器翻譯中取得了很好地效果，但是其仍存在幾點問題：1.具有不同網(wǎng)絡層數(shù)的Transformer模型中MHA層和FFN層的排列模式是固定的，已有研究表明Transformer不同的層排列模式在其他自然語言處理任務上擁有比基礎Transformer模型更好的性能。2.Transformer模型每個層都擁有相同的參數(shù)。當使用Transformer執(zhí)行機器翻譯任務時，編碼器的較低層傾向于從詞向量中學習更多的語法知識，而較高的層則傾向于從詞向量中學習更多的語義。每個層設置成同樣的參數(shù)去學習不同角度的信息不符合神經(jīng)網(wǎng)絡設計的一般準則。3.Transformer模型的層數(shù)和超參數(shù)都是通過專家結合領域知識進行設置，如果非專業(yè)人員想要使用Transformer模型解決機器翻譯任務時很難獨立設計一個符合預期的模型。

針對上述問題，本方案設計了使用演化策略自動搜索Transformer模型參數(shù)和結構的方案，讓Transformer模型能夠更好的學習機器翻譯任務中的詞向量表達，提高機器翻譯任務的精度。在機器翻譯任務中，本方案構造的Transformer模型超過了現(xiàn)有的標準Transformer的性能。

發(fā)明內容

針對現(xiàn)有技術中的上述不足，本發(fā)明提供了一種基于Transformer模型的機器翻譯模型優(yōu)化方法。

為了達到上述發(fā)明目的，本發(fā)明采用的技術方案為：

一種基于Transformer模型的機器翻譯模型優(yōu)化方法，包括如下步驟：

S1、初始化具有多個不同結構和參數(shù)的Transformer模型的種群作為父代模型種群；

S2、利用BLEU算法計算所述父代模型種群中的每個Transformer模型詞向量學習能力評估指標；

S3、根據(jù)步驟S2的詞向量學習能力評估指標大小從父代模型種群中選擇父代個體，并使用交叉變異算子生成子代個體種群，同時利用BLEU算法計算子代個體種群中每個模型的詞向量學習能力評估指標；

S4、對所述父代個體和子代個體進行環(huán)境選擇生成新的模型種群，并根據(jù)所述步驟S2和步驟S3進行多輪迭代進化，直至滿足迭代終止條件；

S5、選擇最后一代中的最優(yōu)個體進行機器翻譯任務。

下載完整專利技術內容需要扣除積分，VIP會員可以免費下載。

免登錄下載普通用戶下載升級VIP會員，免費下載

該專利技術資料僅供研究查看技術是否侵權等信息，商用須獲得專利權人授權。該專利全部權利屬于四川大學，未經(jīng)四川大學許可，擅自商用是侵權行為。如果您想購買此專利、獲得商業(yè)授權和技術合作，請聯(lián)系【客服】