[發明專利]基于自注意力機制的多領域神經機器翻譯方法有效
| 申請號: | 201910344013.3 | 申請日: | 2019-04-22 |
| 公開(公告)號: | CN110059323B | 公開(公告)日: | 2023-07-11 |
| 發明(設計)人: | 熊德意;張詩奇 | 申請(專利權)人: | 蘇州大學 |
| 主分類號: | G06F40/58 | 分類號: | G06F40/58;G06F40/47;G06N3/045;G06N3/0455;G06N3/0895 |
| 代理公司: | 蘇州市中南偉業知識產權代理事務所(普通合伙) 32257 | 代理人: | 楊慧林 |
| 地址: | 215000 江蘇*** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 注意力 機制 領域 神經 機器翻譯 方法 | ||
本發明公開了一種基于自注意力機制的多領域神經機器翻譯方法。基于自注意力機制的多領域神經機器翻譯方法,包括:對Transformer進行了兩項重要的改變;第一個變化是基于領域感知的自注意力機制,其中領域表示被添加到原始的自注意力機制的鍵和值向量中;注意力機制的權重是查詢和領域感知的鍵的相關程度。第二個變化是添加一個領域表示學習模塊來學習領域向量。本發明的有益效果:本專利在目前代表最先進水平的神經網絡架構Transformer上提出領域感知的NMT模型架構。為多領域翻譯提出了一種基于領域感知的自注意力機制。據所知,這是在基于自注意力機制的多領域NMT上的首次嘗試。同時,實驗和分析也驗證了的模型能夠顯著提升各領域的翻譯效果并且可以學習到訓練數據的領域信息。
技術領域
本發明涉及神經機器翻譯領域,具體涉及一種基于自注意力機制的多領域神經機器翻譯方法。
背景技術
隨著計算機計算能力的提高以及大數據的應用,深度學習取得進一步的應用。基于深度學習的神經機器翻譯(Neural?Machine?Translation)越來越受到人們的關注。在NMT領域中,目前代表最先進水平的神經網絡架構Transformer是一個完全基于注意力機制(attention-based)的編碼器-解碼器(encoder-decoder)模型。其主要思想是將待翻譯的語句(在下文中統稱為‘源語句’)經過編碼器(encoder)編碼成為一個向量表示,然后利用解碼器(decoder)對源語句的向量表示進行解碼,翻譯成為其對應的譯文(在下文中統稱為‘目標語句’)。
從人工和自動評測指標來看,神經機器翻譯在翻譯質量上已經取得了顯著進步,尤其是在新聞領域。這種成功得益于先進的神經架構和大規模可得到的領域內訓練數據。然而,神經機器翻譯在領域適應方面仍然面臨著挑戰。
將機器翻譯(MT)更普遍地應用到工業翻譯中面臨著兩個相互關聯的問題。一方面,MT技術應該能夠保證高水平的靈活性,能夠在廣泛的使用場景(語言組合,流派,領域)中提供高質量的輸出。另一方面,實現這一目標所需的基礎設施應具有足夠的可擴展性,以便以合理的成本實現MT的工業部署。
第一個問題是MT領域適應中眾所周知的問題:翻譯性能受到訓練和測試數據之間匹配性的限制。本專利討論的場景的輸入數據來自各種不同的領域,在通用平行語料庫上訓練的模型受到數據多樣性的影響。實際上,當訓練實例的距離增加時,處理來自不同領域的句子變得越來越困難。翻譯系統處理的領域越多,翻譯質量下降的機率就越高。為了解決這個問題,MT系統應該足夠靈活,以適應不同數據之間的各種語言差異(例如詞匯,結構)。
第二個問題更切合實際:在模型缺乏靈活性的情況下,多領域的翻譯場景需要多個特定領域的系統架構,每次涉及一個新的領域時,必須使用特定領域的數據再訓練一個專用模型,缺乏架構的可擴展性和造成較高的維護成本。
傳統的多領域翻譯方法是1)首先訓練通用模型,然后在特定領域上微調以最大化其在特定領域上的性能。Luong和Manning在論文Effective?Approaches?to?Attention-based?Neural?Machine?Translation中提出微調的方法,在已經訓練好的領域外翻譯系統上用領域內的語料繼續訓練。
2)對不同的領域訓練多個模型進行模型融合。Sajjad等人在論文Neural?machinetranslation?training?in?a?multi-domain?scenario中探索了模型疊加和多領域的多模型融合方法。
傳統技術存在以下技術問題:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于蘇州大學,未經蘇州大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910344013.3/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種英語翻譯器
- 下一篇:基于依存信息監督的神經網絡機器翻譯方法及裝置





