[發(fā)明專利]機器翻譯方法在審
| 申請?zhí)枺?/td> | 202111212884.3 | 申請日: | 2021-10-19 |
| 公開(公告)號: | CN114065780A | 公開(公告)日: | 2022-02-18 |
| 發(fā)明(設計)人: | 呂學強;張樂;孫少奇 | 申請(專利權)人: | 北京信息科技大學 |
| 主分類號: | G06F40/58 | 分類號: | G06F40/58;G06F40/211;G06N3/04;G06N3/08 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 100192 北*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 機器翻譯 方法 | ||
本申請公開了一種機器翻譯方法,通過Transformer模型實現(xiàn),所述Transformer模型由多個同構的編碼器和解碼器組成,所述編碼器用于編碼中文的新能源專利文本,所述解碼器用于產(chǎn)出對應英文專利的翻譯結果;所述編碼器與所述解碼器都使用多頭自注意力機制來捕獲句子內(nèi)部結構,所述編碼器與所述解碼器之間通過注意力機制連接來進行對齊翻譯。本申請的機器翻譯方法,能有效將術語信息整合到新能源中英專利機器翻譯中,提高了翻譯質(zhì)量,并且大部分術語詞都能得到正確的翻譯。
技術領域
本申請涉及文本處理技術領域,具體涉及一種機器翻譯方法。
背景技術
新能源領域是一種高新技術產(chǎn)業(yè),各國都把發(fā)展新能源作為推進產(chǎn)業(yè)結構調(diào)整的重要舉措。研究新能源專利文獻翻譯,不僅可以助力中國專利走向國際,推進中國與其他國家間交流合作,也可以學習國外優(yōu)秀專利技術,推動中國新能源專利產(chǎn)業(yè)發(fā)展。專利機器翻譯作為機器翻譯非常重要的一個研究方向也受到了人們的廣泛關注。盡管神經(jīng)機器翻譯(NMT)目前已經(jīng)達到了很高的翻譯質(zhì)量,但對于特定領域來說翻譯效果往往不佳,由于專利文本術語翻譯不準確會對翻譯文本質(zhì)量產(chǎn)生很大影響,大多數(shù)語言會由語言專家創(chuàng)建特定領域的術語,在后期對翻譯結果進行譯后編輯以提高翻譯質(zhì)量。翻譯記憶庫被看作是一種訓練數(shù)據(jù)的領域知識,如何將雙語機器翻譯與雙語詞典相結合,在運行時將領域術語集成到NMT中仍然是一個具有挑戰(zhàn)性的問題。
發(fā)明內(nèi)容
本申請的目的是提供一種機器翻譯方法。為了對披露的實施例的一些方面有一個基本的理解,下面給出了簡單的概括。該概括部分不是泛泛評述,也不是要確定關鍵/重要組成元素或描繪這些實施例的保護范圍。其唯一目的是用簡單的形式呈現(xiàn)一些概念,以此作為后面的詳細說明的序言。
根據(jù)本申請實施例的一個方面,提供一種機器翻譯方法,通過Transformer模型實現(xiàn)。
進一步地,所述Transformer模型由多個同構的編碼器和解碼器組成,所述編碼器用于編碼中文的新能源專利文本,所述解碼器用于產(chǎn)出對應英文專利的翻譯結果;所述編碼器與所述解碼器都使用多頭自注意力機制來捕獲句子內(nèi)部結構,所述編碼器與所述解碼器之間通過注意力機制連接來進行對齊翻譯。
進一步地,所述編碼器由6層同構的網(wǎng)絡層堆疊組成;每一所述網(wǎng)絡層包含2個子網(wǎng)絡層,分別是多頭自注意力機制和全連接的前饋神經(jīng)網(wǎng)絡;在每一所述子網(wǎng)絡層后面都進行殘差連接和層歸一化處理。
進一步地,所述解碼器由6層同構的網(wǎng)絡層堆疊組成,每一所述網(wǎng)絡層包含3個子網(wǎng)絡層;所述3個子網(wǎng)絡層包括自注意力機制層、編碼器-解碼器注意力子層以及全連接層。
進一步地,所述多頭自注意力機制包括:
假設詞向量是d,源語言句子是X={x1,x2,...,xn},X∈Rn×d,經(jīng)過相似度計算得到Q、K、V三個權重向量:
Q=XWQ,K=XWK,V=XWV
式中XWQ、XWK、XWV是線性變化矩陣;
然后Q與KT進行矩陣相乘,再將標準化的QKT放入到softmax激活函數(shù)中對權重進行歸一化處理,最后與V相乘得到最終Attention;
式中dk表示K的維度;
再經(jīng)過多頭結構拼接向量得到多頭注意力向量,進行h次計算使得模型在不同子空間聯(lián)合處理學到相關聯(lián)的信息,
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京信息科技大學,未經(jīng)北京信息科技大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業(yè)授權和技術合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202111212884.3/2.html,轉載請聲明來源鉆瓜專利網(wǎng)。





