[發(fā)明專利]基于自注意力機制的多領(lǐng)域神經(jīng)機器翻譯方法有效

申請?zhí)枺?/td>	201910344013.3	申請日：	2019-04-22
公開（公告）號：	CN110059323B	公開（公告）日：	2023-07-11
發(fā)明（設(shè)計）人：	熊德意;張詩奇	申請（專利權(quán)）人：	蘇州大學(xué)
主分類號：	G06F40/58	分類號：	G06F40/58;G06F40/47;G06N3/045;G06N3/0455;G06N3/0895
代理公司：	蘇州市中南偉業(yè)知識產(chǎn)權(quán)代理事務(wù)所(普通合伙) 32257	代理人：	楊慧林
地址：	215000 江蘇***	國省代碼：	江蘇;32
權(quán)利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關(guān)鍵詞：	基于注意力機制領(lǐng)域神經(jīng) 機器翻譯方法
鉆瓜網(wǎng) 技術(shù)展會專利詞庫專利權(quán)人專利榜在售專利公布日期熱門專利

【說明書】：

本發(fā)明公開了一種基于自注意力機制的多領(lǐng)域神經(jīng)機器翻譯方法?；谧宰⒁饬C制的多領(lǐng)域神經(jīng)機器翻譯方法，包括：對Transformer進(jìn)行了兩項重要的改變；第一個變化是基于領(lǐng)域感知的自注意力機制，其中領(lǐng)域表示被添加到原始的自注意力機制的鍵和值向量中；注意力機制的權(quán)重是查詢和領(lǐng)域感知的鍵的相關(guān)程度。第二個變化是添加一個領(lǐng)域表示學(xué)習(xí)模塊來學(xué)習(xí)領(lǐng)域向量。本發(fā)明的有益效果：本專利在目前代表最先進(jìn)水平的神經(jīng)網(wǎng)絡(luò)架構(gòu)Transformer上提出領(lǐng)域感知的NMT模型架構(gòu)。為多領(lǐng)域翻譯提出了一種基于領(lǐng)域感知的自注意力機制。據(jù)所知，這是在基于自注意力機制的多領(lǐng)域NMT上的首次嘗試。同時，實驗和分析也驗證了的模型能夠顯著提升各領(lǐng)域的翻譯效果并且可以學(xué)習(xí)到訓(xùn)練數(shù)據(jù)的領(lǐng)域信息。

技術(shù)領(lǐng)域

本發(fā)明涉及神經(jīng)機器翻譯領(lǐng)域，具體涉及一種基于自注意力機制的多領(lǐng)域神經(jīng)機器翻譯方法。

背景技術(shù)

隨著計算機計算能力的提高以及大數(shù)據(jù)的應(yīng)用，深度學(xué)習(xí)取得進(jìn)一步的應(yīng)用?；谏疃葘W(xué)習(xí)的神經(jīng)機器翻譯(Neural?Machine?Translation)越來越受到人們的關(guān)注。在NMT領(lǐng)域中，目前代表最先進(jìn)水平的神經(jīng)網(wǎng)絡(luò)架構(gòu)Transformer是一個完全基于注意力機制(attention-based)的編碼器-解碼器(encoder-decoder)模型。其主要思想是將待翻譯的語句(在下文中統(tǒng)稱為‘源語句’)經(jīng)過編碼器(encoder)編碼成為一個向量表示，然后利用解碼器(decoder)對源語句的向量表示進(jìn)行解碼，翻譯成為其對應(yīng)的譯文(在下文中統(tǒng)稱為‘目標(biāo)語句’)。

從人工和自動評測指標(biāo)來看，神經(jīng)機器翻譯在翻譯質(zhì)量上已經(jīng)取得了顯著進(jìn)步，尤其是在新聞領(lǐng)域。這種成功得益于先進(jìn)的神經(jīng)架構(gòu)和大規(guī)?？傻玫降念I(lǐng)域內(nèi)訓(xùn)練數(shù)據(jù)。然而，神經(jīng)機器翻譯在領(lǐng)域適應(yīng)方面仍然面臨著挑戰(zhàn)。

將機器翻譯(MT)更普遍地應(yīng)用到工業(yè)翻譯中面臨著兩個相互關(guān)聯(lián)的問題。一方面，MT技術(shù)應(yīng)該能夠保證高水平的靈活性，能夠在廣泛的使用場景(語言組合，流派，領(lǐng)域)中提供高質(zhì)量的輸出。另一方面，實現(xiàn)這一目標(biāo)所需的基礎(chǔ)設(shè)施應(yīng)具有足夠的可擴展性，以便以合理的成本實現(xiàn)MT的工業(yè)部署。

第一個問題是MT領(lǐng)域適應(yīng)中眾所周知的問題：翻譯性能受到訓(xùn)練和測試數(shù)據(jù)之間匹配性的限制。本專利討論的場景的輸入數(shù)據(jù)來自各種不同的領(lǐng)域，在通用平行語料庫上訓(xùn)練的模型受到數(shù)據(jù)多樣性的影響。實際上，當(dāng)訓(xùn)練實例的距離增加時，處理來自不同領(lǐng)域的句子變得越來越困難。翻譯系統(tǒng)處理的領(lǐng)域越多，翻譯質(zhì)量下降的機率就越高。為了解決這個問題，MT系統(tǒng)應(yīng)該足夠靈活，以適應(yīng)不同數(shù)據(jù)之間的各種語言差異(例如詞匯，結(jié)構(gòu))。

第二個問題更切合實際：在模型缺乏靈活性的情況下，多領(lǐng)域的翻譯場景需要多個特定領(lǐng)域的系統(tǒng)架構(gòu)，每次涉及一個新的領(lǐng)域時，必須使用特定領(lǐng)域的數(shù)據(jù)再訓(xùn)練一個專用模型，缺乏架構(gòu)的可擴展性和造成較高的維護(hù)成本。

傳統(tǒng)的多領(lǐng)域翻譯方法是1)首先訓(xùn)練通用模型，然后在特定領(lǐng)域上微調(diào)以最大化其在特定領(lǐng)域上的性能。Luong和Manning在論文Effective?Approaches?to?Attention-based?Neural?Machine?Translation中提出微調(diào)的方法，在已經(jīng)訓(xùn)練好的領(lǐng)域外翻譯系統(tǒng)上用領(lǐng)域內(nèi)的語料繼續(xù)訓(xùn)練。

2)對不同的領(lǐng)域訓(xùn)練多個模型進(jìn)行模型融合。Sajjad等人在論文Neural?machinetranslation?training?in?a?multi-domain?scenario中探索了模型疊加和多領(lǐng)域的多模型融合方法。

傳統(tǒng)技術(shù)存在以下技術(shù)問題：

下載完整專利技術(shù)內(nèi)容需要扣除積分，VIP會員可以免費下載。

免登錄下載普通用戶下載升級VIP會員，免費下載

該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息，商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于蘇州大學(xué)，未經(jīng)蘇州大學(xué)許可，擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作，請聯(lián)系【客服】

本文鏈接：http://www.szxzyx.cn/pat/books/201910344013.3/2.html，轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。

上一篇：一種英語翻譯器
下一篇：基于依存信息監(jiān)督的神經(jīng)網(wǎng)絡(luò)機器翻譯方法及裝置

同類專利

專利分類

G 物理

G06 計算；推算；計數(shù)
G06F 電數(shù)字?jǐn)?shù)據(jù)處理

免登錄下載普通用戶下載升級VIP會員，免費下載

專利文獻(xiàn)下載

說明：

1、專利原文基于中國國家知識產(chǎn)權(quán)局專利說明書；

2、支持發(fā)明專利、實用新型專利、外觀設(shè)計專利（升級中）；

3、專利數(shù)據(jù)每周兩次同步更新，支持Adobe PDF格式；

4、內(nèi)容包括專利技術(shù)的結(jié)構(gòu)示意圖、流程工藝圖或技術(shù)構(gòu)造圖；

5、已全新升級為極速版,下載速度顯著提升！歡迎使用！

請您登陸后，進(jìn)行下載，點擊【登陸】【注冊】