[發(fā)明專利]基于自注意力機制的多領(lǐng)域神經(jīng)機器翻譯方法有效
| 申請?zhí)枺?/td> | 201910344013.3 | 申請日: | 2019-04-22 |
| 公開(公告)號: | CN110059323B | 公開(公告)日: | 2023-07-11 |
| 發(fā)明(設(shè)計)人: | 熊德意;張詩奇 | 申請(專利權(quán))人: | 蘇州大學(xué) |
| 主分類號: | G06F40/58 | 分類號: | G06F40/58;G06F40/47;G06N3/045;G06N3/0455;G06N3/0895 |
| 代理公司: | 蘇州市中南偉業(yè)知識產(chǎn)權(quán)代理事務(wù)所(普通合伙) 32257 | 代理人: | 楊慧林 |
| 地址: | 215000 江蘇*** | 國省代碼: | 江蘇;32 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 基于 注意力 機制 領(lǐng)域 神經(jīng) 機器翻譯 方法 | ||
本發(fā)明公開了一種基于自注意力機制的多領(lǐng)域神經(jīng)機器翻譯方法?;谧宰⒁饬C制的多領(lǐng)域神經(jīng)機器翻譯方法,包括:對Transformer進(jìn)行了兩項重要的改變;第一個變化是基于領(lǐng)域感知的自注意力機制,其中領(lǐng)域表示被添加到原始的自注意力機制的鍵和值向量中;注意力機制的權(quán)重是查詢和領(lǐng)域感知的鍵的相關(guān)程度。第二個變化是添加一個領(lǐng)域表示學(xué)習(xí)模塊來學(xué)習(xí)領(lǐng)域向量。本發(fā)明的有益效果:本專利在目前代表最先進(jìn)水平的神經(jīng)網(wǎng)絡(luò)架構(gòu)Transformer上提出領(lǐng)域感知的NMT模型架構(gòu)。為多領(lǐng)域翻譯提出了一種基于領(lǐng)域感知的自注意力機制。據(jù)所知,這是在基于自注意力機制的多領(lǐng)域NMT上的首次嘗試。同時,實驗和分析也驗證了的模型能夠顯著提升各領(lǐng)域的翻譯效果并且可以學(xué)習(xí)到訓(xùn)練數(shù)據(jù)的領(lǐng)域信息。
技術(shù)領(lǐng)域
本發(fā)明涉及神經(jīng)機器翻譯領(lǐng)域,具體涉及一種基于自注意力機制的多領(lǐng)域神經(jīng)機器翻譯方法。
背景技術(shù)
隨著計算機計算能力的提高以及大數(shù)據(jù)的應(yīng)用,深度學(xué)習(xí)取得進(jìn)一步的應(yīng)用?;谏疃葘W(xué)習(xí)的神經(jīng)機器翻譯(Neural?Machine?Translation)越來越受到人們的關(guān)注。在NMT領(lǐng)域中,目前代表最先進(jìn)水平的神經(jīng)網(wǎng)絡(luò)架構(gòu)Transformer是一個完全基于注意力機制(attention-based)的編碼器-解碼器(encoder-decoder)模型。其主要思想是將待翻譯的語句(在下文中統(tǒng)稱為‘源語句’)經(jīng)過編碼器(encoder)編碼成為一個向量表示,然后利用解碼器(decoder)對源語句的向量表示進(jìn)行解碼,翻譯成為其對應(yīng)的譯文(在下文中統(tǒng)稱為‘目標(biāo)語句’)。
從人工和自動評測指標(biāo)來看,神經(jīng)機器翻譯在翻譯質(zhì)量上已經(jīng)取得了顯著進(jìn)步,尤其是在新聞領(lǐng)域。這種成功得益于先進(jìn)的神經(jīng)架構(gòu)和大規(guī)??傻玫降念I(lǐng)域內(nèi)訓(xùn)練數(shù)據(jù)。然而,神經(jīng)機器翻譯在領(lǐng)域適應(yīng)方面仍然面臨著挑戰(zhàn)。
將機器翻譯(MT)更普遍地應(yīng)用到工業(yè)翻譯中面臨著兩個相互關(guān)聯(lián)的問題。一方面,MT技術(shù)應(yīng)該能夠保證高水平的靈活性,能夠在廣泛的使用場景(語言組合,流派,領(lǐng)域)中提供高質(zhì)量的輸出。另一方面,實現(xiàn)這一目標(biāo)所需的基礎(chǔ)設(shè)施應(yīng)具有足夠的可擴展性,以便以合理的成本實現(xiàn)MT的工業(yè)部署。
第一個問題是MT領(lǐng)域適應(yīng)中眾所周知的問題:翻譯性能受到訓(xùn)練和測試數(shù)據(jù)之間匹配性的限制。本專利討論的場景的輸入數(shù)據(jù)來自各種不同的領(lǐng)域,在通用平行語料庫上訓(xùn)練的模型受到數(shù)據(jù)多樣性的影響。實際上,當(dāng)訓(xùn)練實例的距離增加時,處理來自不同領(lǐng)域的句子變得越來越困難。翻譯系統(tǒng)處理的領(lǐng)域越多,翻譯質(zhì)量下降的機率就越高。為了解決這個問題,MT系統(tǒng)應(yīng)該足夠靈活,以適應(yīng)不同數(shù)據(jù)之間的各種語言差異(例如詞匯,結(jié)構(gòu))。
第二個問題更切合實際:在模型缺乏靈活性的情況下,多領(lǐng)域的翻譯場景需要多個特定領(lǐng)域的系統(tǒng)架構(gòu),每次涉及一個新的領(lǐng)域時,必須使用特定領(lǐng)域的數(shù)據(jù)再訓(xùn)練一個專用模型,缺乏架構(gòu)的可擴展性和造成較高的維護(hù)成本。
傳統(tǒng)的多領(lǐng)域翻譯方法是1)首先訓(xùn)練通用模型,然后在特定領(lǐng)域上微調(diào)以最大化其在特定領(lǐng)域上的性能。Luong和Manning在論文Effective?Approaches?to?Attention-based?Neural?Machine?Translation中提出微調(diào)的方法,在已經(jīng)訓(xùn)練好的領(lǐng)域外翻譯系統(tǒng)上用領(lǐng)域內(nèi)的語料繼續(xù)訓(xùn)練。
2)對不同的領(lǐng)域訓(xùn)練多個模型進(jìn)行模型融合。Sajjad等人在論文Neural?machinetranslation?training?in?a?multi-domain?scenario中探索了模型疊加和多領(lǐng)域的多模型融合方法。
傳統(tǒng)技術(shù)存在以下技術(shù)問題:
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于蘇州大學(xué),未經(jīng)蘇州大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910344013.3/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。





