[發明專利]基于全方向注意力的翻譯方法及其相關設備在審
| 申請號: | 202110735132.9 | 申請日: | 2021-06-30 |
| 公開(公告)號: | CN113420869A | 公開(公告)日: | 2021-09-21 |
| 發明(設計)人: | 孔令煒;王健宗 | 申請(專利權)人: | 平安科技(深圳)有限公司 |
| 主分類號: | G06N3/04 | 分類號: | G06N3/04;G06N3/08;G06F40/58;G06F40/47;G06F40/284;G06F40/289 |
| 代理公司: | 深圳市世聯合知識產權代理有限公司 44385 | 代理人: | 汪琳琳 |
| 地址: | 518000 廣東省深圳市福田區福*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 方向 注意力 翻譯 方法 及其 相關 設備 | ||
本申請實施例屬于人工智能領域,應用于智慧安防領域,涉及一種基于全方向注意力的翻譯方法及其相關設備,包括接收含有線性層、歸一層和組合層的深度學習翻譯模型,組合層包括全方向層和編碼解碼層;將訓練樣本輸入第一個編碼解碼層,獲得目標樣本特征;將目標樣本特征輸入第一個全方向層,獲得第一序列;第一個全方向層之后存在下一個組合層時,將第一序列輸入下一個組合層,獲得第二序列;直至經過所有組合層,將第二序列依次經過線性層和歸一層,獲得翻譯結果;訓練深度學習翻譯模型,獲得訓練后的深度學習翻譯模型;將待翻譯數據輸入訓練后的深度學習翻譯模型,獲得目標翻譯數據。深度學習翻譯模型可存儲于區塊鏈中。本申請提高翻譯的準確率。
技術領域
本申請涉及人工智能技術領域,尤其涉及基于全方向注意力的翻譯方法及其相關設備。
背景技術
機器翻譯是一種借助程序將一種自然語言翻譯成另一種自然語言的的技術,這項技術經過長期的發展變化,已經從最早的基于規則替換,到基于統計的機器翻譯模型,變成現在的普遍基于人工神經網絡的局面。
目前主流的神經網絡翻譯模型——Transformer模型,通過訓練注意力機制來實現機器翻譯,但傳統的注意力機制使得在訓練中損失了大量的信息,尤其隨著模型的深度的增加,注意力機制丟失的信息量會顯著提升,這導致機器翻譯模型總是難以達到完美流暢的翻譯效果。例如,在《Attention is all you need》一文中所提出的Transformer模型架構就有6個編碼器和6個解碼器,深度為12,最終輸出結果相比較輸入文本,已經丟失了大量信息。
發明內容
本申請實施例的目的在于提出一種基于全方向注意力的翻譯方法及其相關設備,提高翻譯的準確率。
為了解決上述技術問題,本申請實施例提供一種基于全方向注意力的翻譯方法,采用了如下所述的技術方案:
一種基于全方向注意力的翻譯方法,包括下述步驟:
接收已標記的訓練樣本和預設的深度學習翻譯模型,所述深度學習翻譯模型包括線性層、歸一層和至少一個組合層,所述組合層包括全方向層和編碼解碼層;
將所述訓練樣本輸入至所述深度學習翻譯模型的第一個所述編碼解碼層中,獲得輸出的目標樣本特征,并將所述目標樣本特征輸入至所述深度學習翻譯模型的第一個所述全方向層中,獲得輸出的第一序列;
判斷所述第一個所述全方向層之后是否存在下一個所述組合層,在所述第一個所述全方向層之后存在下一個所述組合層時,將所述第一序列輸入至下一個所述組合層中,獲得輸出的第二序列;
直至經過所有所述組合層,將所述第二序列依次經過所述線性層和所述歸一層,獲得輸出的翻譯結果;
基于所述翻譯結果迭代訓練所述深度學習翻譯模型,獲得訓練后的深度學習翻譯模型;
接收待翻譯數據,將所述待翻譯數據輸入至所述訓練后的深度學習翻譯模型中,獲得目標翻譯數據。
進一步的,所述全方向層包括全方向注意力層和池化層,所述將所述目標樣本特征輸入至所述深度學習翻譯模型的第一個所述全方向層中,獲得輸出的第一序列的步驟包括:
將所述目標樣本特征輸入至所述全方向注意力層中,獲得輸出的初始序列;
將所述初始序列輸入至所述池化層中,獲得輸出的所述第一序列。
進一步的,所述將所述目標樣本特征輸入至所述全方向注意力層中,獲得輸出的初始序列的步驟包括:
所述全方向注意力層的特征為:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于平安科技(深圳)有限公司,未經平安科技(深圳)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110735132.9/2.html,轉載請聲明來源鉆瓜專利網。





