[發明專利]基于神經網絡模型的交互式語音翻譯模型的訓練方法在審
| 申請號: | 202111296338.2 | 申請日: | 2021-11-03 |
| 公開(公告)號: | CN114021586A | 公開(公告)日: | 2022-02-08 |
| 發明(設計)人: | 劉宇宸;周玉 | 申請(專利權)人: | 北京中科凡語科技有限公司 |
| 主分類號: | G06F40/58 | 分類號: | G06F40/58;G06F16/33;G06F16/332;G06N3/04;G06N3/08 |
| 代理公司: | 北京庚致知識產權代理事務所(特殊普通合伙) 11807 | 代理人: | 韓德凱 |
| 地址: | 100190 北京市海淀*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 神經網絡 模型 交互式 語音 翻譯 訓練 方法 | ||
1.一種基于神經網絡模型的交互式語音翻譯模型的訓練方法,其特征在于,包括:
構建源語言語音-源語言文本-目標語言文本的數據集;
至少使用所述數據集中的源語言語音及源語言文本對所述神經網絡模型的編碼器以及語音識別解碼器進行訓練,至少使用所述數據集中的源語言語音及目標語言文本對所述神經網絡模型的編碼器以及語音翻譯解碼器進行訓練;以及
獲得訓練后的交互式語音翻譯模型;
其中,至少使用所述數據集中的源語言語音及目標語言文本對所述神經網絡模型的編碼器以及語音翻譯解碼器進行訓練的過程中,還包括使用所述語音識別解碼器在訓練過程中已生成的語音識別歷史信息進行訓練。
2.根據權利要求1所述的基于神經網絡模型的交互式語音翻譯模型的訓練方法,其特征在于,至少使用所述數據集中的源語言語音及源語言文本對所述神經網絡模型的編碼器以及語音識別解碼器進行訓練,包括:使用所述語音翻譯解碼器在訓練過程中已生成的語音翻譯歷史信息進行訓練。
3.根據權利要求2所述的基于神經網絡模型的交互式語音翻譯模型的訓練方法,其特征在于,優選地,使用所述語音翻譯解碼器在訓練過程中已生成的語音翻譯歷史信息的語義進行訓練。
4.根據權利要求1所述的基于神經網絡模型的交互式語音翻譯模型的訓練方法,其特征在于,為所述編碼器以及語音翻譯解碼器構建基于輸出概率分布的第一目標函數,為所述編碼器以及語音識別編碼器構建基于輸出概率分布的第二目標函數,在所述交互式語音翻譯模型的訓練過程中,以最小化所述第一目標函數與所述第二目標函數的最大似然損失之和為訓練目標。
5.根據權利要求4所述的基于神經網絡模型的交互式語音翻譯模型的訓練方法,其特征在于,基于所述第一目標函數以及所述第二目標函數構建聯合目標函數,所述聯合目標函數為乘以第一權重系數的第一目標函數與乘以第二權重系數的第二目標函數之和,以最小化所述聯合目標函數的最大似然損失之和為訓練目標。
6.根據權利要求1至3中任一項所述的基于神經網絡模型的交互式語音翻譯模型的訓練方法,其特征在于,所述語音識別編碼器包括交互注意力模塊、自注意力模塊以及前饋神經網絡,所述交互注意力模塊以向量化的所述源語言文本以及向量化的所述目標語言文本作為輸入,所述自注意力模塊以所述編碼器的輸出以及所述交互注意力模塊的輸出作為輸入,所述自注意力模塊的輸出作為所述前饋神經網絡的輸入。
7.根據權利要求6所述的基于神經網絡模型的交互式語音翻譯模型的訓練方法,其特征在于,所述交互注意力模塊以及所述自注意力模塊均為多頭注意力機制。
8.一種基于神經網絡模型的交互式語音翻譯裝置,其特征在于,包括:編碼器、語音識別解碼器以及語音翻譯解碼器,所述編碼器用于對輸入的源語言語音進行編碼處理,所述編碼器的輸出分別作為所述語音識別解碼器的輸入以及所述語音翻譯解碼器的輸入;
所述語音識別解碼器為權利要求1至7中任一項所述的方法訓練后的語音識別解碼器,所述語音翻譯解碼器為權利要求1至7中任一項所述的方法訓練后的語音翻譯解碼器。
9.一種電子設備,其特征在于,包括:
存儲器,所述存儲器存儲執行指令;以及
處理器,所述處理器執行所述存儲器存儲的執行指令,使得所述處理器執行權利要求1至7中任一項所述的方法。
10.一種可讀存儲介質,其特征在于,所述可讀存儲介質中存儲有執行指令,所述執行指令被處理器執行時用于實現權利要求1至7中任一項所述的方法。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京中科凡語科技有限公司,未經北京中科凡語科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202111296338.2/1.html,轉載請聲明來源鉆瓜專利網。





