[發(fā)明專利]一種基于Transformer模型的機器翻譯模型優(yōu)化方法有效
申請?zhí)枺?/td> | 202110361317.8 | 申請日: | 2021-04-02 |
公開(公告)號: | CN113051938B | 公開(公告)日: | 2022-03-01 |
發(fā)明(設計)人: | 孫亞楠;馮犇;吳杰;李思毅 | 申請(專利權)人: | 四川大學 |
主分類號: | G06F40/58 | 分類號: | G06F40/58;G06F40/284;G06F40/253;G06F40/30;G06N3/00 |
代理公司: | 北京正華智誠專利代理事務所(普通合伙) 11870 | 代理人: | 代維凡 |
地址: | 610064 四川*** | 國省代碼: | 四川;51 |
權利要求書: | 查看更多 | 說明書: | 查看更多 |
摘要: | |||
搜索關鍵詞: | 一種 基于 transformer 模型 機器翻譯 優(yōu)化 方法 | ||
本發(fā)明公開了一種基于Transformer模型的機器翻譯模型優(yōu)化方法,通過設計變長編碼和候選塊讓Transformer個體具有不同的結構和參數(shù),為詞向量的學習提供多種候選模型;而后設計了交叉變異策略讓Transformer個體能夠進行信息交流,讓處理詞向量的優(yōu)秀結構或參數(shù)可以遺傳給下一代;之后設計了環(huán)境選擇策略產(chǎn)生下一代Transformer個體,淘汰學習詞向量效果相對較差的模型,保留學習詞向量效果較為優(yōu)秀的模型;之后不斷迭代演化搜索找到學習詞向量效果最優(yōu)的Transformer模型,用于最終解決機器翻譯任務,使得Transformer模型能夠更好的學習機器翻譯任務中的詞向量表達,提高機器翻譯任務的精度。
技術領域
本發(fā)明涉及演化計算領域,具體涉及一種基于Transformer模型的機器翻譯模型優(yōu)化方法。
背景技術
Transformer是由谷歌再2017年提出的用于解決機器翻譯任務的一種序列到序列,在Transformer提出之前,機器翻譯模型可以分為兩類:基于回饋式神經(jīng)網(wǎng)絡的模型或者基于卷積的序列回歸模型。基于回饋式神經(jīng)網(wǎng)絡的模型大多由RNN或LSTM結構組成,模型中每一層中的輸入都依賴于前一層的輸出狀態(tài),這種順序計算約束導致基于回饋式神經(jīng)網(wǎng)絡的模型在訓練和預測過程中都需要耗費大量的時間和計算資源;基于卷積的網(wǎng)絡模型由多層卷積神經(jīng)網(wǎng)絡構成,這種模型在計算長距離信息的關系時卷積操作數(shù)會迅速增長,例如在ByteNet中是指數(shù)級增長。
Transformer利用多頭注意力機制(MHA)和前饋式神經(jīng)網(wǎng)絡(FFN)解決了上述兩個模型的缺點,可以通過更少的計算資源學習機器翻譯中的詞向量,獲取更高的翻譯精度。雖然Transformer模型已經(jīng)在機器翻譯中取得了很好地效果,但是其仍存在幾點問題:1.具有不同網(wǎng)絡層數(shù)的Transformer模型中MHA層和FFN層的排列模式是固定的,已有研究表明Transformer不同的層排列模式在其他自然語言處理任務上擁有比基礎Transformer模型更好的性能。2.Transformer模型每個層都擁有相同的參數(shù)。當使用Transformer執(zhí)行機器翻譯任務時,編碼器的較低層傾向于從詞向量中學習更多的語法知識,而較高的層則傾向于從詞向量中學習更多的語義。每個層設置成同樣的參數(shù)去學習不同角度的信息不符合神經(jīng)網(wǎng)絡設計的一般準則。3.Transformer模型的層數(shù)和超參數(shù)都是通過專家結合領域知識進行設置,如果非專業(yè)人員想要使用Transformer模型解決機器翻譯任務時很難獨立設計一個符合預期的模型。
針對上述問題,本方案設計了使用演化策略自動搜索Transformer模型參數(shù)和結構的方案,讓Transformer模型能夠更好的學習機器翻譯任務中的詞向量表達,提高機器翻譯任務的精度。在機器翻譯任務中,本方案構造的Transformer模型超過了現(xiàn)有的標準Transformer的性能。
發(fā)明內容
針對現(xiàn)有技術中的上述不足,本發(fā)明提供了一種基于Transformer模型的機器翻譯模型優(yōu)化方法。
為了達到上述發(fā)明目的,本發(fā)明采用的技術方案為:
一種基于Transformer模型的機器翻譯模型優(yōu)化方法,包括如下步驟:
S1、初始化具有多個不同結構和參數(shù)的Transformer模型的種群作為父代模型種群;
S2、利用BLEU算法計算所述父代模型種群中的每個Transformer模型詞向量學習能力評估指標;
S3、根據(jù)步驟S2的詞向量學習能力評估指標大小從父代模型種群中選擇父代個體,并使用交叉變異算子生成子代個體種群,同時利用BLEU算法計算子代個體種群中每個模型的詞向量學習能力評估指標;
S4、對所述父代個體和子代個體進行環(huán)境選擇生成新的模型種群,并根據(jù)所述步驟S2和步驟S3進行多輪迭代進化,直至滿足迭代終止條件;
S5、選擇最后一代中的最優(yōu)個體進行機器翻譯任務。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于四川大學,未經(jīng)四川大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業(yè)授權和技術合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110361317.8/2.html,轉載請聲明來源鉆瓜專利網(wǎng)。
- 基于Transformer+LSTM神經(jīng)網(wǎng)絡模型的商品銷量預測方法及裝置
- 一種基于Transformer模型自然場景文字識別方法
- 一種深度Transformer級聯(lián)神經(jīng)網(wǎng)絡模型壓縮算法
- 點云分割方法、系統(tǒng)、介質、計算機設備、終端及應用
- 基于Transformer的中文智能對話方法
- 一種基于改進Transformer模型的飛行器故障診斷方法和系統(tǒng)
- 一種基于Transformer模型的機器翻譯模型優(yōu)化方法
- 基于Transformer和增強交互型MPNN神經(jīng)網(wǎng)絡的小分子表示學習方法
- 基于U-Transformer多層次特征重構的異常檢測方法及系統(tǒng)
- 基于EfficientDet和Transformer的航空圖像中的飛機檢測方法