[發明專利]翻譯模型的生成方法、裝置、可讀存儲介質及電子設備有效
| 申請號: | 202011613464.1 | 申請日: | 2020-12-30 |
| 公開(公告)號: | CN112699691B | 公開(公告)日: | 2022-10-21 |
| 發明(設計)人: | 高體偉;孫偉;李崇嶺;魏太云;蘇萌;左云鵬;劉譯璟;蘇海波 | 申請(專利權)人: | 北京百分點科技集團股份有限公司 |
| 主分類號: | G06F40/42 | 分類號: | G06F40/42;G06F40/58 |
| 代理公司: | 北京英創嘉友知識產權代理事務所(普通合伙) 11447 | 代理人: | 南毅寧 |
| 地址: | 100096 北京市海淀*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 翻譯 模型 生成 方法 裝置 可讀 存儲 介質 電子設備 | ||
1.一種翻譯模型的生成方法,其特征在于,所述翻譯模型包括編碼器和解碼器,其中,所述編碼器包括多個特征提取層,所述方法包括:
獲取所述編碼器的所述多個特征提取層之間的層間注意力模型;
根據所述編碼器的層間注意力模型,確定編碼器解碼器的注意力模型;
基于所述層間注意力模型和所述編碼器解碼器的注意力模型,生成所述翻譯模型;
其中,所述解碼器包括多個特征解碼層;所述獲取所述編碼器的所述多個特征提取層之間的層間注意力模型,包括:
針對每一所述特征解碼層,根據所述特征解碼層的輸入向量、所述編碼器每一所述特征提取層的輸入向量和每一所述特征提取層的輸出向量,確定所述特征解碼層的、所述多個特征提取層之間的層間注意力模型;
所述根據所述編碼器的層間注意力模型,確定編碼器解碼器的注意力模型,包括:
針對每一所述特征解碼層,根據所述特征解碼層的、所述層間注意力模型的輸出向量,以及所述特征解碼層的輸入向量經所述特征解碼層中的掩碼多頭自注意力網絡、殘差連接、層正則化網絡之后得到的中間向量,確定所述特征解碼層的、所述編碼器和所述解碼器的注意力模型。
2.根據權利要求1所述的方法,其特征在于,所述編碼器包括M1個特征提取層,所述M1個特征提取層依次相連,M1為大于或等于2的整數;
其中,依次相連的M1個特征提取層中的第一個特征提取層的輸入向量為輸入詞嵌入和輸入詞的位置編碼,第K個特征提取層的輸入向量為第K-1個特征提取層的輸出向量,其中,K的取值范圍為2到M1。
3.根據權利要求1所述的方法,其特征在于,所述解碼器包括M2個特征解碼層,所述M2個特征解碼層依次相連,M2為大于或等于2的整數;
其中,依次相連的M2個特征解碼層中的第一個特征解碼層的輸入向量為輸出詞嵌入和輸出詞的位置編碼,第N個特征解碼層的輸入向量為第N-1個特征解碼層的輸出向量,其中,N的取值范圍為2到M2。
4.根據權利要求1所述的方法,其特征在于,所述基于所述層間注意力模型和所述編碼器解碼器的注意力模型,生成所述翻譯模型,包括:
基于層間注意力模型和編碼器解碼器的注意力模型,對所述編碼器和所述解碼器進行訓練,生成翻譯模型。
5.根據權利要求4所述的方法,其特征在于,所述基于層間注意力模型和編碼器解碼器的注意力模型,對所述編碼器和所述解碼器進行訓練,生成翻譯模型,包括:
利用源語言語料對所述編碼器進行掩碼語言模型訓練,得到預訓練后的編碼器;
利用目標語言語料對所述解碼器進行生成語言模型訓練,得到預訓練后的解碼器;
根據所述預訓練后的編碼器、所述預訓練后的解碼器、所述層間注意力模型、所述編碼器解碼器的注意力模型,構建樣本翻譯模型;
利用雙邊語料對所述樣本翻譯模型進行訓練,以得到翻譯模型。
6.一種翻譯模型的生成裝置,其特征在于,所述翻譯模型包括編碼器和解碼器,其中,所述編碼器包括多個特征提取層,所述裝置包括:
獲取模塊,用于獲取所述編碼器的所述多個特征提取層之間的層間注意力模型;
確定模塊,用于根據所述編碼器的層間注意力模型,確定編碼器所述解碼器的注意力模型;
生成模塊,用于基于所述編碼器所述解碼器的注意力模型,生成所述翻譯模型;
所述解碼器包括多個特征解碼層;所述獲取模塊用于:針對每一所述特征解碼層,根據所述特征解碼層的輸入向量、所述編碼器每一所述特征提取層的輸入向量和每一所述特征提取層的輸出向量,確定所述特征解碼層的、所述多個特征提取層之間的層間注意力模型;
所述確定模塊用于:針對每一所述特征解碼層,根據所述特征解碼層的、所述層間注意力模型的輸出向量,以及所述特征解碼層的輸入向量經所述特征解碼層中的掩碼多頭自注意力網絡、殘差連接、層正則化網絡之后得到的中間向量,確定所述特征解碼層的、所述編碼器和所述解碼器的注意力模型。
7.一種計算機可讀存儲介質,其上存儲有計算機程序,其特征在于,該程序被處理器執行時實現權利要求1-5中任一項所述方法的步驟。
8.一種電子設備,其特征在于,包括:
存儲器,其上存儲有計算機程序;
處理器,用于執行所述存儲器中的所述計算機程序,以實現權利要求1-5中任一項所述方法的步驟。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京百分點科技集團股份有限公司,未經北京百分點科技集團股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011613464.1/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種小管徑頂管施工結構
- 下一篇:一種車路協同的交警動作識別方法和裝置





