[發明專利]一種基于神經網絡結構搜索的機器翻譯譯文質量評估方法有效
| 申請號: | 202110414498.6 | 申請日: | 2021-04-16 |
| 公開(公告)號: | CN113033218B | 公開(公告)日: | 2023-08-15 |
| 發明(設計)人: | 杜權 | 申請(專利權)人: | 沈陽雅譯網絡技術有限公司 |
| 主分類號: | G06F40/51 | 分類號: | G06F40/51;G06F40/58;G06N3/045;G06N3/0442;G06N3/08 |
| 代理公司: | 沈陽新科知識產權代理事務所(特殊普通合伙) 21117 | 代理人: | 李曉光 |
| 地址: | 110004 遼寧省沈陽市*** | 國省代碼: | 遼寧;21 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 神經網絡 結構 搜索 機器翻譯 譯文 質量 評估 方法 | ||
1.一種基于神經網絡結構搜索的機器翻譯譯文質量評估方法,其特征在于包括以下步驟:
1)獲取WMT質量評估任務的訓練數據和WMT機器翻譯任務中的訓練數據;
2)確定將要實施網絡結構搜索技術的部分為預測器-評估器模型中的預測器組件,根據組件結構和功能特性確定搜索空間,同時確定將使用基于進化算法的搜索策略進行預搜索;
3)搭建經典的預測器-評估器模型,其中評估器部分的結構直接使用傳統模型中的雙向GRU模型,預測器部分則根據搜索空間和搜索策略進行搭建,實行基于進化算法的搜索策略的最初使用Transformer神經機器翻譯模型來熱啟動初始化種群;
4)將神經機器翻譯作為目標任務,機器翻譯雙語數據作為訓練數據,使用基于進化算法的搜索策略對預測器部分的網絡結構進行預搜索;
5)利用WMT質量評估任務的數據對預測器部分的網絡結構進行微調;
6)使用機器翻譯雙語訓練數據對搜索到的預測器進行訓練調優,收斂后繼續使用WMT質量評估任務的數據對預測器-評估器整體模型進行訓練調優,直到收斂;
7)使用訓練收斂后的完整模型進行質量評估的單詞級任務,并使用其在測試集上的準確度表征模型性能。
2.按權利要求1所述的基于神經網絡結構搜索的機器翻譯譯文質量評估方法,其特征在于:步驟2)中選擇Transformer模型附近的結構空間作為搜索空間,在NASNet搜索空間的基礎上進行修改,該搜索空間由兩組相同的、可堆疊的計算單元組成,分別代表編碼器和解碼器,不同部分的計算單元由不同數量的NASNet樣式的塊級聯而來,而每個塊中都包括左、右兩個分支,分別接收兩個隱藏狀態輸入并產生新的隱藏狀態組合后作為塊的輸出;結構搜索過程中實際需要對左右兩個分支的操作組合進行搜索,包括輸入、歸一化、層結構、輸出維度、激活函數、組合函數和計算單元數量;同時確定使用基于進化算法的搜索策略在搜索空間中搜索預測器的網絡結構,即將所有候選結構看作生物界的一個種群,每個候選結構都是該種群中的一個個體,種群進化過程中的“優勝劣汰”即為挑選候選結構的過程,而個體的“優劣”以其適應度來衡量。
3.按權利要求1所述的基于神經網絡結構搜索的機器翻譯譯文質量評估方法,其特征在于:步驟3)中搭建預測器-評估器模型,使用網絡結構搜索技術對預測器的內部結構進行搜索,保持評估器部分的內部結構為經典的雙向循環神經網絡,具體為雙向GRU網絡;在對預測器結構的搜索過程中,最初利用Transformer神經機器翻譯模型熱啟動初始化一個種群,在此基礎上找到比現存的Transformer模型更加優秀的預測器結構。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于沈陽雅譯網絡技術有限公司,未經沈陽雅譯網絡技術有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110414498.6/1.html,轉載請聲明來源鉆瓜專利網。





