[發明專利]基于知識圖譜的神經機器翻譯方法、裝置、設備及介質在審
| 申請號: | 202111199951.2 | 申請日: | 2021-10-14 |
| 公開(公告)號: | CN114118104A | 公開(公告)日: | 2022-03-01 |
| 發明(設計)人: | 趙陽;張家俊;周玉;宗成慶 | 申請(專利權)人: | 中國科學院自動化研究所 |
| 主分類號: | G06F40/58 | 分類號: | G06F40/58;G06F40/42;G06F16/36;G06N5/02;G06N5/04 |
| 代理公司: | 北京路浩知識產權代理有限公司 11002 | 代理人: | 謝志超 |
| 地址: | 100190 *** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 知識 圖譜 神經 機器翻譯 方法 裝置 設備 介質 | ||
本發明提供一種基于知識圖譜的神經機器翻譯方法、裝置、設備及介質,該方法包括:獲取原始雙語平行語句對,根據原始雙語平行語句對提取單詞和短語翻譯對,得到對應的種子實體翻譯對;獲取源語言知識圖譜和目標語言知識圖譜,根據種子實體翻譯對、源語言知識圖譜和目標語言知識圖譜,構建對應的向量空間;獲取到待翻譯實體集合時,根據向量空間對待翻譯實體集合進行推斷,得到對應的待翻譯實體翻譯對;計算種子實體翻譯對和待翻譯實體翻譯對的距離,根據距離得到包含待翻譯實體翻譯對的偽雙語平行句對。本發明通過將知識圖譜融合到神經機器翻譯中,利用知識圖譜中豐富的實體知識提升了神經機器翻譯的實體翻譯準確率。
技術領域
本發明涉及自然語言處理和機器翻譯技術領域,尤其涉及一種基于知識圖譜的神經機器翻譯方法、裝置、設備及介質。
背景技術
機器翻譯就是通過計算機實現不同語言之間的轉換,即通過計算機實現從源語言到目標語言的轉換。神經機器翻譯就是在機器翻譯的基礎上,通過神經網絡實現從源語言到目標語言的自動轉換。目前的神經機器翻譯雖然表現卓著,但是依舊存在不足,特別是對實體翻譯的過程。目前的神經機器翻譯對實體翻譯的質量較差,從而使得神經機器翻譯的實體翻譯準確率低。
發明內容
本發明提供一種基于知識圖譜的神經機器翻譯方法、裝置、設備及介質,旨在提升神經機器翻譯的實體翻譯準確率。
本發明提供一種基于知識圖譜的神經機器翻譯方法,包括:
獲取原始雙語平行語句對,根據所述原始雙語平行語句對提取單詞和短語翻譯對,得到對應的種子實體翻譯對,其中,所述原始雙語平行語句對包括原始源語言和原始目標語言;
獲取所述原始源語言對應的源語言知識圖譜和所述原始目標語言對應的目標語言知識圖譜,根據所述種子實體翻譯對、所述源語言知識圖譜和所述目標語言知識圖譜,構建對應的向量空間;
獲取到待翻譯實體集合時,根據所述向量空間對所述待翻譯實體集合進行推斷,得到對應的待翻譯實體翻譯對;
計算所述種子實體翻譯對和所述待翻譯實體翻譯對的距離,根據所述距離得到包含所述待翻譯實體翻譯對的偽雙語平行句對。
根據本發明提供的一種基于知識圖譜的神經機器翻譯方法,所述根據所述距離得到包含所述待翻譯實體翻譯對的偽雙語平行句對的步驟包括:
確定所述距離是否小于第一預設距離閾值;
若所述距離小于所述第一預設距離閾值,則將所述種子實體翻譯對的上下文遷移至所述待翻譯實體翻譯對的上下文,得到所述包含所述待翻譯實體翻譯對的偽雙語平行句對。
根據本發明提供的一種基于知識圖譜的神經機器翻譯方法,所述根據所述種子實體翻譯對、所述源語言知識圖譜和所述目標語言知識圖譜,構建對應的向量空間的步驟包括:
通過預設知識表示方法將所述源語言知識圖譜和所述目標語言知識圖譜,分別轉化為對應的源語言知識向量和目標語言知識向量;
基于所述源語言知識向量和所述目標語言知識向量,構建對應的向量轉化矩陣;
根據所述種子實體翻譯對和所述向量轉化矩陣,將所述源語言知識向量和所述目標語言知識向量進行映射,構建所述向量空間。
根據本發明提供的一種基于知識圖譜的神經機器翻譯方法,所述待翻譯實體集合包括源語言實體集合和目標語言實體集合,
所述根據所述向量空間對所述待翻譯實體集合進行推斷,得到對應的待翻譯實體翻譯對的步驟包括:
通過所述向量轉化矩陣將所述源語言實體集合或/和所述目標語言實體集合映射到所述向量空間中,得到對應的各個映射實體對;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中國科學院自動化研究所,未經中國科學院自動化研究所許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202111199951.2/2.html,轉載請聲明來源鉆瓜專利網。





