[發明專利]基于深層神經網絡翻譯模型的解碼方法有效
| 申請號: | 201810270468.0 | 申請日: | 2018-03-29 |
| 公開(公告)號: | CN108647214B | 公開(公告)日: | 2020-06-30 |
| 發明(設計)人: | 張家俊;周龍;馬宏遠;杜翠蘭;張翠;趙曉航;宗成慶 | 申請(專利權)人: | 中國科學院自動化研究所;國家計算機網絡與信息安全管理中心 |
| 主分類號: | G06F40/58 | 分類號: | G06F40/58;G06F40/289;G06N3/04 |
| 代理公司: | 北京瀚仁知識產權代理事務所(普通合伙) 11482 | 代理人: | 郭文浩;陳曉鵬 |
| 地址: | 100190 *** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 深層 神經網絡 翻譯 模型 解碼 方法 | ||
1.一種基于深層神經網絡翻譯模型的解碼方法,其特征在于,所述方法包括:
步驟1,對待翻譯語句進行分詞處理,得到源語言詞匯;
步驟2,使用自動對齊工具對預設的翻譯模型詞匯表中的語料進行詞對齊,得到與所述源語言詞匯對齊的目標語言單詞;
步驟3,基于步驟2所得到的目標語言單詞,確定出所述待翻譯語句的目標端動態詞匯表,根據預先構建的翻譯模型,使用柱搜索方法解碼出的語句作為所述翻譯模型的輸出;
其中,
所述翻譯模型為基于門限殘差機制和平行注意力機制的深層神經網絡,所述“基于門限殘差機制和平行注意力機制的深層神經網絡”的構建方法為:
步驟31,利用長短時記憶網絡搭建基于深層神經網絡的翻譯模型主體結構;
步驟32,使用sigmoid函數作為所述門限殘差所在的門限殘差網絡模型的門控制激活函數,將所述長短時記憶網絡的輸入與所述門限殘差網絡模型的門限按位相乘得到所述門限殘差網絡模型的門限輸出;
步驟33,將所述長短時記憶網絡的初始輸出和所述門限輸出相加作為所述門限殘差網絡模型的輸出,疊加到所述翻譯模型相應的中間層的輸入中;
步驟34,將所述翻譯模型的解碼器的底層和編碼器的底層相連,進行注意力操作計算,并將所計算出的注意力作為所述解碼器底層的所述長短時記憶網絡的輸出向上層傳遞;
步驟35,將所述翻譯模型的所述解碼器的頂層和所述編碼器的頂層相連,進行注意力操作計算,利用所計算出的注意力輸出預測目標語言單詞。
2.根據權利要求1所述的基于深層神經網絡翻譯模型的解碼方法,其特征在于,所述翻譯模型,其構建方法為:
對訓練用數據中的雙語句子對進行分詞和詞頻統計,確定所述翻譯模型詞匯表大小;
采用極大似然目標函數作為約束函數對初始翻譯模型進行參數訓練;
其中,
所述雙語句子對為存在對應關系的一對源語言語句和目標語言語句。
3.根據權利要求2所述的基于深層神經網絡翻譯模型的解碼方法,其特征在于,所述翻譯模型詞匯表包括目標端詞匯表和源端詞匯表;
“對訓練用數據中的雙語句子對進行分詞和詞頻統計,確定翻譯模型詞匯表大小”,包括:
對所述雙語句子對進行詞法分析以進行自動分詞;
統計所述源語言語句和所述目標語言語句在自動分詞后的詞頻和占比,確定所述目標端詞匯表和所述源端詞匯表大小。
4.根據權利要求1所述的基于深層神經網絡翻譯模型的解碼方法,其特征在于,“采用長短時記憶網絡搭建基于深層神經網絡的翻譯模型主體結構”,包括通過如下公式構建所述深層神經網絡翻譯模型:
it=δ(Wixt+Uiht-1+bi)
ft=δ(Wfxt+Ufht-1+bf)
ot=δ(Woxt+Uoht-1+bo)
ht=ot⊙tanh(ct)
其中,xt是當前時刻的輸入,δ是sigmoid函數,ht-1是t-1時刻的隱層狀態,W、U、b為模型參數,i、f、o分別表示輸入門、遺忘門、輸出門;遺忘門ft控制著每一個內存單元需要遺忘多少信息,輸入門it控制著每一個內存單元加入多少新的信息,輸出門ot控制著每一個內存單元輸出多少信息。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中國科學院自動化研究所;國家計算機網絡與信息安全管理中心,未經中國科學院自動化研究所;國家計算機網絡與信息安全管理中心許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810270468.0/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種基于耦合關系分析的組合關鍵字語義相關度評估方法
- 下一篇:多功能翻譯機





