[發明專利]基于依存圖網絡的漢越神經機器翻譯方法有效
| 申請號: | 202011229881.6 | 申請日: | 2020-11-06 |
| 公開(公告)號: | CN112507733B | 公開(公告)日: | 2023-04-18 |
| 發明(設計)人: | 余正濤;楊威亞;高盛祥;文永華;朱俊國;吳霖 | 申請(專利權)人: | 昆明理工大學 |
| 主分類號: | G06F40/58 | 分類號: | G06F40/58;G06F40/289;G06F40/211;G06N3/0455;G06N3/0442;G06N3/047;G06N3/0499;G06N3/08 |
| 代理公司: | 昆明人從眾知識產權代理有限公司 53204 | 代理人: | 何嬌 |
| 地址: | 650093 云*** | 國省代碼: | 云南;53 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 依存 網絡 神經 機器翻譯 方法 | ||
本發明涉及基于依存圖網絡的漢越神經機器翻譯方法,屬于自然語言處理技術領域。本發明首先從網站爬取漢越平行語料,將獲取的漢越雙語語料分別利用依存句法解析工具進行依存句法解析。其次將獲取的源語言依存句法解析樹利用圖編碼器轉化為依存圖,并對其編碼獲取依存圖結構信息,再將依存圖結構信息送入編碼端與源語言序列信息融合,利用這種融合信息送入解碼端指導模型翻譯。本發明通過融入依存句法信息,將依存關系轉化為依存圖,利用圖神經網絡實現對依存圖的全局結構化編碼,給翻譯模型提供了更豐富的全局依存信息,對具有句法差異的漢越語言對的翻譯效果提升提供了一定的幫助。
技術領域
本發明涉及基于依存圖網絡的漢越神經機器翻譯方法,屬于自然語言處理技術領域。
背景技術
漢越神經機器翻譯屬于低資源機器翻譯任務,由于缺乏大規模的平行句對,翻譯性能不佳。漢語和越南語屬于不同的語系,句法差異比較大,存在定語前置和后置的區別,在漢越雙語詞對齊對比中,漢語的定語一般位于被修飾語的前面,例如“美麗的”作為定語修飾“歌手”,“優美的”作為定語修飾“歌聲”。在越南語的句法結構中,定語一般位于被修飾語后面,如“(歌手)(美麗的),“(歌聲)(優美的)”,在低資源情況下,翻譯模型可能對雙語的句法特點學習不夠充分,無法捕獲深層的句法信息,產生亂序的譯文。
發明內容
本發明提供了基于依存圖網絡的漢越神經機器翻譯方法,以用于解決在低資源場景下,因為缺少大規模平行語料,翻譯模型可能對雙語的句法差異學習不充分,無法建模深層次的句法結構信息,導致生成亂序譯文,翻譯性能不佳的問題。
本發明的技術方案是:基于依存圖網絡的漢越神經機器翻譯方法,首先將獲取的源語言的依存句法解析樹利用圖編碼器轉化為依存圖,并對其編碼獲取依存圖結構信息;再將依存圖結構信息送入編碼端與源語言序列信息融合,利用這種融合信息送入解碼端指導模型翻譯。
進一步地,所述方法具體步驟包括:
Step1、編碼依存圖結構信息:引入圖編碼器將源語言的依存句法解析樹轉化為依存圖,并對其編碼獲取依存圖結構信息;
Step2、融合依存圖結構信息和序列信息:該步驟在基于Transformer的編碼層基礎上進行了擴展,在兩個子層多頭注意力層和前饋層之間增加了一個圖注意力層,在序列編碼器端融合依存圖結構信息和序列信息;
Step3、在解碼端,增加了一個圖和序列注意力機制的子層,通過增加子層后的解碼端利用融合后的信息和目標語言序列信息指導解碼器目標譯文生成。
進一步地,所述Step1中,源語言的依存句法解析樹的獲取包括:通過爬蟲爬取網站漢越平行語料,對獲取語料進行依存句法解析,獲取源語言的依存句法解析樹。
進一步地,所述源語言的依存句法解析樹的獲取具體步驟如下:
(1)、通過調用scrapy爬取漢越網站漢越雙語平行語料,進行清洗后放入數據庫中;
(2)、針對漢語語料,利用ltp平臺,獲取漢語的依存句法解析樹,針對越南語,利用Vncorenlp,獲取越南語的依存句法解析樹。
進一步地,所述步驟Step1的具體步驟為:
Step1.1、首先將依存句法解析樹轉化為有向連通圖,在轉換的過程中對詞節點和標簽進行向量化,其中,詞節點根據詞表進行向量化,標簽根據標簽詞表進行向量化;
Step1.2、采用門控圖神經網絡GGNNs上的GGNN圖編碼器,實現對圖結構的序列化編碼,并將邊的信息轉化為節點信息,然后融入圖隱藏狀態G中,得到依存圖結構信息。
進一步地,所述步驟Step2的具體步驟為:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于昆明理工大學,未經昆明理工大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011229881.6/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種通信系統、方法及裝置
- 下一篇:自行車及其后撥鏈器





