[發明專利]融合BERT與詞嵌入雙重表征的漢越神經機器翻譯方法在審
| 申請號: | 202111042653.2 | 申請日: | 2021-09-07 |
| 公開(公告)號: | CN113901843A | 公開(公告)日: | 2022-01-07 |
| 發明(設計)人: | 高盛祥;劉演;余正濤;毛存禮 | 申請(專利權)人: | 昆明理工大學 |
| 主分類號: | G06F40/58 | 分類號: | G06F40/58;G06F40/242;G06F40/49;G06K9/62 |
| 代理公司: | 昆明人從眾知識產權代理有限公司 53204 | 代理人: | 何嬌 |
| 地址: | 650093 云*** | 國省代碼: | 云南;53 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 融合 bert 嵌入 雙重 表征 神經 機器翻譯 方法 | ||
本發明涉及融合BERT與詞嵌入雙重表征的漢越神經機器翻譯方法,屬于自然語言處理技術領域。本發明使用預訓練語言模型和詞嵌入分別對源語言序列進行表示學習,通過注意力機制建立兩種表征之間的聯系后進行拼接操作得到雙重表征向量,再經過線性變換和自注意力機制,使詞嵌入表征和預訓練語言模型表征完全自適應融合在一起,得到對輸入文本的充分表征,以此提高神經機器翻譯模型性能。本發明提出的融合BERT與詞嵌入雙重表征的漢越神經機器翻譯方法,解決了因為越南語是低資源語言而導致漢語與越南語的神經機器翻譯的性能并不理想的問題,顯著提高漢越神經機器翻譯模型的質量。
技術領域
本發明涉及融合BERT與詞嵌入雙重表征的漢越神經機器翻譯方法,屬于自然語言處理技術領域。
背景技術
漢語-越南語的機器翻譯需求不斷增加,神經機器翻譯是目前主流的機器翻譯方法,但在漢-越這類低資源的機器翻譯任務中,由于雙語平行語料規模小,神經機器翻譯的效果并不理想。考慮到單語語料豐富,海量的單語語料進行自監督學習能夠得到包含豐富語言信息的預訓練語言模型,將該預訓練語言模型融入神經機器翻譯系統對低資源的機器翻譯具有重要意義,故提出了融合BERT與詞嵌入雙重表征的漢越神經機器翻譯方法。
目前,BERT預訓練語言模型在句法分析、文本分類等NLP任務中取得優異成績,證明該語言模型內包含豐富的語言信息,這些語言信息包含在編碼后得到的表征向量中,無法進行直接觀察,因此Jinhua Zhu等人提出BERT-fused算法實現把BERT預訓練語言模型編碼輸出的隱狀態隨機融入到Transformer模型的編碼器和解碼器結構中,將BERT預訓練語言模型輸出的隱狀態向量和詞嵌入層輸出隱狀態向量通過隨機概率加權融合的方式,以此生成包含預訓練語言模型內語言信息和詞嵌入層語言信息的隱狀態,實現將BERT預訓練語言模型中包含的語言信息用于神經機器翻譯,該方法在多項公開數據集的翻譯任務上相較于Transformer模型取得了較大的提升,證明BERT預訓練語言模型作為外部知識庫融入神經機器翻譯模型的可行性。但是Jinhua Zhu等人的方法依賴于對預訓練的機器翻譯模型做參數初始化,每一層都需要引入預訓練語言模型的知識,而且他們的特征融合方式是簡單的拼接,使用交叉注意力機制使預訓練語言模型信息受到詞嵌入信息,最終特征融合的時候用的是隨機權重相加的方式。
因此,本發明針對如何在低資源神經機器翻譯中有效融入BERT預訓練語言模型內語言信息方向開展研究工作。
發明內容
本發明針對漢語-越南語神經機器翻譯因雙語平行句對數據不足限制翻譯性能的問題,提出了融合BERT與詞嵌入雙重表征的漢越神經機器翻譯方法。該方法對源語言序列分別進行BERT預訓練語言模型表征和詞嵌入表征,再利用注意力機制實現雙重表征的自適應動態融合,增強源語言的表示學習能力,并在漢語-越南語、英語-越南語翻譯任務上進行了多組實驗,結果表明,使用BERT預訓練模型表征與詞嵌入表征的自適應動態融合,能夠有效將BERT預訓練語言模型內的語言信息融入神經機器翻譯模型中,有效提升了漢語-越南語神經機器翻譯模型性能。
本發明的技術方案是:基于融合BERT與詞嵌入雙重表征的漢越神經機器翻譯方法,所述基于融合BERT與詞嵌入雙重表征的漢越神經機器翻譯方法的具體步驟如下:
Step1、收集用于訓練平行句對抽取模型的漢越平行語料;
Step2、收集已經預訓練的中文BERT預訓練語言模型參數以及詞典;
Step3、對源語言序列分別進行BERT預訓練語言模型預訓練表征與詞嵌入表征;
Step4、使用交叉注意力機制使經過BERT預訓練語言模型預訓練的源語言序列表征受到詞嵌入表征的約束,將經過BERT預訓練語言模型訓練后的源語言序列表征和詞嵌入表征進行拼接融合得到融合表征作為編碼器的輸入;
Step5、使用編碼器使得融合表征中兩種不同來源的表征達到深層動態交互融合;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于昆明理工大學,未經昆明理工大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202111042653.2/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種極深專色油墨印刷方法
- 下一篇:大數據融合碳排放治理、預測分析模型方法





