[發明專利]機器翻譯方法在審
| 申請號: | 202111212884.3 | 申請日: | 2021-10-19 |
| 公開(公告)號: | CN114065780A | 公開(公告)日: | 2022-02-18 |
| 發明(設計)人: | 呂學強;張樂;孫少奇 | 申請(專利權)人: | 北京信息科技大學 |
| 主分類號: | G06F40/58 | 分類號: | G06F40/58;G06F40/211;G06N3/04;G06N3/08 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 100192 北*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 機器翻譯 方法 | ||
1.一種機器翻譯方法,其特征在于,通過Transformer模型實現。
2.根據權利要求1所述的方法,其特征在于,所述Transformer模型由多個同構的編碼器和解碼器組成,所述編碼器用于編碼中文的新能源專利文本,所述解碼器用于產出對應英文專利的翻譯結果;所述編碼器與所述解碼器都使用多頭自注意力機制來捕獲句子內部結構,所述編碼器與所述解碼器之間通過注意力機制連接來進行對齊翻譯。
3.根據權利要求2所述的方法,其特征在于,所述編碼器由6層同構的網絡層堆疊組成;每一所述網絡層包含2個子網絡層,分別是多頭自注意力機制和全連接的前饋神經網絡;在每一所述子網絡層后面都進行殘差連接和層歸一化處理。
4.根據權利要求2所述的方法,其特征在于,所述解碼器由6層同構的網絡層堆疊組成,每一所述網絡層包含3個子網絡層;所述3個子網絡層包括自注意力機制層、編碼器-解碼器注意力子層以及全連接層。
5.根據權利要求3所述的方法,其特征在于,所述多頭自注意力機制包括:
假設詞向量是d,源語言句子是X={x1,x2,...,xn},X∈Rn×d,經過相似度計算得到Q、K、V三個權重向量:
Q=XWQ,K=XWK,V=XWV
XWQ、XWK、XWV是線性變化矩陣;
然后Q與KT進行矩陣相乘,再將標準化的QKT放入到softmax激活函數中對權重進行歸一化處理,最后與V相乘得到最終Attention;
dk表示K的維度;
再經過多頭結構拼接向量得到多頭注意力向量,進行h次計算使得模型在不同子空間聯合處理學到相關聯的信息,
MultiHead=Concat(head1,...,headh)Wo
head1=Attention(QWiQ,KWiK,VWiV)
在Transformer每一子層之間引入了殘差連接和層歸一化:
FFN=max(0,xW1+b1)W2+b2
在編碼器和解碼器最底層的輸入向量中加入采用正余弦的位置編碼,
其中pos表示當前詞在句子序列中的位置,i表示向量的維度,dmodel表示向量的總維度。
6.一種機器翻譯裝置,其特征在于,包括Transformer模型。
7.根據權利要求6所述的裝置,其特征在于,所述Transformer模型由多個同構的編碼器和解碼器組成,所述編碼器用于編碼中文的新能源專利文本,所述解碼器用于產出對應英文專利的翻譯結果;所述編碼器與所述解碼器都使用多頭自注意力機制來捕獲句子內部結構,所述編碼器與所述解碼器之間通過注意力機制連接來進行對齊翻譯。
8.根據權利要求6所述的裝置,其特征在于,所述編碼器由6層同構的網絡層堆疊組成;每一所述網絡層包含2個子網絡層,分別是多頭自注意力機制和全連接的前饋神經網絡;在每一所述子網絡層后面都進行殘差連接和層歸一化處理。
9.根據權利要求6所述的裝置,其特征在于,所述解碼器由6層同構的網絡層堆疊組成,每一所述網絡層包含3個子網絡層;所述3個子網絡層包括自注意力機制層、編碼器-解碼器注意力子層以及全連接層。
10.一種計算機可讀存儲介質,其上存儲有計算機程序,其特征在于,該程序被處理器執行,以實現如權利要求1-5中任一所述的方法。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京信息科技大學,未經北京信息科技大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202111212884.3/1.html,轉載請聲明來源鉆瓜專利網。





