[發明專利]神經機器翻譯中注意力參數的修正方法、裝置及電子設備有效
| 申請號: | 201710252048.5 | 申請日: | 2017-04-17 |
| 公開(公告)號: | CN108733657B | 公開(公告)日: | 2022-10-28 |
| 發明(設計)人: | 程善伯;王宇光;姜里羊;陳偉;王硯峰 | 申請(專利權)人: | 北京搜狗科技發展有限公司 |
| 主分類號: | G06F40/58 | 分類號: | G06F40/58;G06F40/45;G06N3/08 |
| 代理公司: | 北京華沛德權律師事務所 11302 | 代理人: | 馬苗苗 |
| 地址: | 100084 北京市海淀區中關*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 神經 機器翻譯 注意力 參數 修正 方法 裝置 電子設備 | ||
本發明公開了一種神經機器翻譯中注意力參數的修正方法、裝置及電子設備,該方法包括:獲得第t時刻待翻譯的源端詞的編碼向量,t為大于等于1的整數;獲得第t?1時刻翻譯獲得的目標端詞的隱狀態向量、第t?1時刻源端詞的覆蓋率,以及源端詞與目標端詞之間的詞對齊概率;基于詞對齊概率,對覆蓋率進行修正獲得修正后的覆蓋率;基于修正后的覆蓋率、編碼向量及隱狀態向量,計算獲得神經機器翻譯過程中的注意力參數;基于所述注意力參數進行神經機器翻譯。在上述技術方案中,通過詞對齊概率來修正神經機器翻譯中的覆蓋率,從而提高注意力參數的準確性,進而解決了現有技術中神經機器翻譯容易出現“過翻譯”、“欠翻譯”的技術問題,提高了翻譯的準確性。
技術領域
本發明涉及軟件技術領域,特別涉及一種神經機器翻譯中注意力參數的修正方法、裝置及電子設備。
背景技術
隨著經濟全球化的發展,跨語言的翻譯需求越來越大,對機器翻譯的準確性要求越來越高?,F如今,準確性較高的機器翻譯主要包括統計機器翻譯(Statistical MachineTranslation,SMT)和神經機器翻譯(Neural Machine Translation,NMT)。
統計機器翻譯是通過對大量的平行語料進行統計分析,構建統計翻譯模型,進而使用此模型進行翻譯。神經機器翻譯則是將一種語言的句子向量化之后,轉化為計算機可以“理解”的表示形式,再經過傳導運算解碼成另一種語言的譯文,實現了“理解語言,生成譯文”的翻譯方式。神經機器翻譯與統計機器翻譯相比,其優勢在于譯文流暢、更加符合語法規范、容易理解,但神經機器翻譯也存在不足之處。
在神經機器翻譯中使用注意力(attention)機制來建模源端語言和目標端語言之間的軟對齊關系。神經機器翻譯在解碼過程中通過注意力機制的軟對齊關系自動調整,選擇關注不同的源端語言詞或者句子片段來產生對應的目標端語言詞。由于神經機器翻譯中軟對齊關系缺少約束,注意力機制無法保證源端語言句子中的詞語被“恰到好處”地關注,容易導致“過翻譯”、“欠翻譯”問題的產生,降低了神經機器翻譯的準確性。其中,“過翻譯”指不該多次翻譯的源端語言詞語被多次翻譯,“欠翻譯”是指應該被翻譯的源端語言詞語沒有被翻譯。
發明內容
本發明實施例提供一種神經機器翻譯中注意力參數的修正方法、裝置及電子設備,用于解決現有技術中神經機器翻譯容易出現“過翻譯”、“欠翻譯”的技術問題,提高神經機器翻譯的準確性。
第一方面,本發明實施例提供一種神經機器翻譯中注意力參數的修正方法,所述方法包括:
獲得第t時刻待翻譯的源端詞的編碼向量,t為大于等于1的整數;
獲得第t-1時刻翻譯獲得的目標端詞的隱狀態向量、所述第t-1時刻所述源端詞的覆蓋率,以及所述源端詞與所述目標端詞之間的詞對齊概率;
基于所述詞對齊概率,對所述覆蓋率進行修正獲得修正后的所述覆蓋率;
基于修正后的所述覆蓋率、所述編碼向量及所述隱狀態向量,計算獲得神經機器翻譯過程中的注意力參數;
基于所述注意力參數進行機器翻譯。
結合第一方面,在本發明第一方面的第一種實現方式中,所述基于所述詞對齊概率,對所述覆蓋率進行修正獲得修正后的所述覆蓋率,包括:
基于所述詞對齊概率的大小來修正所述覆蓋率的大小,所述詞對齊概率越大修正后的所述覆蓋率越大,所述詞對齊概率越小修正后的所述覆蓋率越小。
結合第一方面,在本發明第一方面的第二種實現方式中,所述基于所述詞對齊概率,對所述覆蓋率進行修正獲得修正后的所述覆蓋率,包括通過如下公式獲得修正后的所述覆蓋率:
C′i-1,j=Ci-1,j*Ai-1,j或者
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京搜狗科技發展有限公司,未經北京搜狗科技發展有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710252048.5/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:語音翻譯裝置、系統和方法
- 下一篇:組織機構名漢英翻譯方法





