[發明專利]基于樞軸的漢越聯合訓練神經機器翻譯方法有效
| 申請號: | 202011020199.6 | 申請日: | 2020-09-25 |
| 公開(公告)號: | CN112257460B | 公開(公告)日: | 2022-06-21 |
| 發明(設計)人: | 高盛祥;張磊;余正濤;王振晗;朱俊國;劉暢 | 申請(專利權)人: | 昆明理工大學 |
| 主分類號: | G06F40/58 | 分類號: | G06F40/58;G06F40/44;G06F40/295;G06F40/284;G06F40/205;G06F16/951 |
| 代理公司: | 昆明人從眾知識產權代理有限公司 53204 | 代理人: | 何嬌 |
| 地址: | 650093 云*** | 國省代碼: | 云南;53 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 樞軸 聯合 訓練 神經 機器翻譯 方法 | ||
1.基于樞軸的漢越聯合訓練神經機器翻譯方法,其特征在于:所述方法首先利用漢越平行語料訓練翻譯模型得到漢語和越南語的詞向量表征;其次以英語作為樞軸語言對漢語-英語,英語-越南語翻譯模型進行聯合訓練,再將漢語-英語、英語-越南語翻譯模型的漢語、越南語的向量表示與漢越模型得到的漢語、越南語的向量表示計算優化從而進行漢越聯合訓練;
所述方法的具體步驟如下:
Step1、獲取漢、英、越單語語料,再經過過濾、去噪音、去除停用詞、命名實體識別和標注、分詞預處理后,分別構建漢英平行語料、英越平行語料和漢越平行語料;
Step2、基于樞軸的神經機器翻譯,融入注意力機制的神經機器翻譯先將源語言句子編碼為向量序列,然后在解碼生成目標語言;利用存在的源語言-樞軸語言和樞軸語言-目標語言的平行語料庫,分別訓練源語言到樞軸語言和樞軸語言到目標語言的翻譯模型;
Step3、基于樞軸的漢越聯合訓練神經機器翻譯,采取聯合訓練的方法,使用漢越平行語料訓練漢越神經機器翻譯模型,得到漢語與越南語的向量表示,并且把漢語與越南語的向量表示加入到漢英,英越的聯合訓練中,對漢越進行聯合訓練從而提升漢越神經機器翻譯性能;
所述步驟Step3的具體步驟為:
Step3.1、使用漢英,英越平行語料來對漢越進行聯合訓練:與表示的是漢語-英語,英語-越南語的似然函數,漢越神經機器翻譯聯合訓練表示為:
Step3.2、在聯合訓練中,存在級聯翻譯錯誤,為了降低樞軸語言帶來的傳播誤差,所以詞在語義空間中詞的表示要一樣,通過軸詞嵌入即英語的詞嵌入來連接漢語到英語的神經機器翻譯模型和英語到越南語的神經機器翻譯模型,鼓勵這兩個模型在兩個詞匯表的交集中為樞軸詞生成相同的向量表示;
Step3.3、使用漢越平行語料訓練漢越神經機器翻譯模型,得到漢語與越南語的向量表示,并且把漢語與越南語的向量表示加入到漢英,英越的聯合訓練中,對漢越進行聯合訓練從而提升漢越神經機器翻譯性能;
所述步驟Step3.2的具體步驟為:
Step3.2.1、定義vwzx→z是漢語-英語的詞表中的英語,vwzz→y是英語-越南語的詞表中的英語,用w∈(vwzx→z∩vwzz→y)表示w是漢語-英語,英語-越南語詞表中共有英語的詞;
Step3.2.1、為減小源到樞軸模型和樞軸到目標模型之間的差異,在訓練模型的似然函數中加入一個連接項R,λ是超參數,并同時通過懲罰歐氏距離來約束漢語到英語的神經機器翻譯模型和英語到越南語的神經機器翻譯模型,則基于樞軸聯合訓練的注意力機制神經機器翻譯模型表示為:
2.根據權利要求1所述的基于樞軸的漢越聯合訓練神經機器翻譯方法,其特征在于:所述步驟Step1的具體步驟為:
Step1.1、首先使用xpath從互聯網上爬取相關網頁的漢英越單語語料,把已爬取出的單語語料,經過過濾、去噪音處理,構建出文本級語料,并以json格式儲存到數據庫中;
Step1.2、對各單語語料進行去除停用詞、命名實體識別和標注、分詞、詞干提取和詞形還原的數據處理;
Step1.3、構建英越平行語料規模70萬句對、漢英語料規模1000萬句對、漢越平行語料。
3.根據權利要求2所述的基于樞軸的漢越聯合訓練神經機器翻譯方法,其特征在于:所述步驟Step1.3中:
在訓練模型之前對漢越語料進行分詞處理,其中漢語分詞采用結巴分詞,越南語分詞采用Underthesea-Vietnamese NLP工具,構建漢越平行語料規模10萬句對。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于昆明理工大學,未經昆明理工大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011020199.6/1.html,轉載請聲明來源鉆瓜專利網。





