[發明專利]利用不同詞嵌入模型進行協同訓練的無監督雙語翻譯詞典獲取方法有效
| 申請號: | 202110688705.7 | 申請日: | 2021-06-21 |
| 公開(公告)號: | CN113343719B | 公開(公告)日: | 2023-03-14 |
| 發明(設計)人: | 曹海龍;楊沐昀;趙鐵軍;蘇子超 | 申請(專利權)人: | 哈爾濱工業大學 |
| 主分類號: | G06F40/58 | 分類號: | G06F40/58;G06F40/242;G06F40/284;G06N20/00 |
| 代理公司: | 哈爾濱市陽光惠遠知識產權代理有限公司 23211 | 代理人: | 孫莉莉 |
| 地址: | 150001 黑龍*** | 國省代碼: | 黑龍江;23 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 利用 不同 嵌入 模型 進行 協同 訓練 監督 雙語 翻譯 詞典 獲取 方法 | ||
本發明公開了一種利用不同詞嵌入模型進行協同訓練的無監督雙語翻譯詞典獲取方法,包括:使用至少兩種不同詞嵌入模型在源語言和目標語言的單語語料上分別進行訓練獲得多組不同模型的詞嵌入;按照詞嵌入訓練模型進行分組,并分別進行初始化得到對應初始詞典;分別利用當前各模型相對應的詞嵌入以及雙語翻譯詞典進行自學習,以更新各個詞嵌入分別利用更新后的詞嵌入獲取當前各自對應的雙語翻譯詞典,并通過協同訓練優化過濾提升各個雙語翻譯詞典的置信度;重復第三、第四步直至訓練結果收斂,并分別得到各個進程上的最終雙語翻譯詞典。該方法解決了小語種語料資源匱乏的問題,提升了基于無監督學習的單語語料上獲取雙語翻譯詞典的無監督方法的效果。
技術領域
本發明涉及雙語翻譯詞典的獲取方法、無監督跨語言學習技術領域,特別涉及一種利用不同詞嵌入模型進行協同訓練的基于無監督學習的雙語翻譯詞典獲取方式。
背景技術
無監督的雙語詞典獲取任務是無監督跨語言學習相關研究的一個細分方向,而無監督的跨語言學習任務致力于不使用任何額外的跨語言平行信號進行跨語言表示的學習,因此對于無監督跨語言學習的探索有助于從最基本的角度研究語言學習的特性以及內在原理,而且也更有利于研究單語語料庫在跨語言學習中的作用,得到更具有普適性的跨語言學習模型。
語料庫是由大量在真實情況下使用的語言信息集成的、可供計算機檢索的、專門做研究使用的巨型資料庫。一般來說,機器翻譯相關研究使用的語料庫是平行語料或可比語料,這是因為平行文本之間的一一對應關系以及可比語料庫之間文本內容的相近都提供了充足的跨語言信息,這對于翻譯相關研究來說有著極大的作用。
對于低資源場景來說,與平行語料庫相比,單語語料是更為豐富且容易獲取的資源。但是由于單語語料之間缺乏跨語言信息,使用單語語料來進行雙語翻譯詞典的構造就變得極為困難。雙語詞典是構建機器翻譯系統的基礎性資源,所以為了機器翻譯尤其是低資源語種上的相關研究的進一步發展,無監督的雙語詞典獲取方法的研究和發展便有著極為重要的研究意義和實用價值。
目前的雙語翻譯詞典的構建方法主要有以下幾種:
(1)依賴語言學專家進行人工構筑的雙語翻譯詞典,比如一些研究機構公布的常用語種上的雙語翻譯詞典。這樣的雙語翻譯詞典來源于語言學家的人為勞動,因此詞典的準確度是最好的,但這樣的詞典的構造需要大量的專業人員和時間,而且在信息數據爆炸的互聯網時代,詞典的更新速度很難跟得上信息的更新速度。而且對于一些較為生僻的語言對之間,也缺少相關的研究工作,所以很多低資源語種之間缺少雙語翻譯詞典。
(2)平行語料庫上雙語詞典獲取的機器翻譯方法。由于平行語料庫的雙語文本之間有著很強的對應關系,因此在平行語料庫上進行文本對齊,并進一步獲取雙語翻譯詞典的目前來說已經有了非常成熟的機器翻譯方法,比如說GIZA++等平行語料庫的對齊方法,雖然比不上人工對齊的效果,但是平行語料庫上的機器翻譯文本對齊方法已經能得到準確率較高的雙語翻譯詞典。但是另一方面,平行語料庫也存在數量少的問題,尤其對于低資源語言對來說平行語料數據是十分匱乏的,因此利用平行語料庫來獲取雙語翻譯詞典的方法也有著較大的局限性。
(3)單語語料庫上雙語詞典的獲取方法。單語語料庫相對來說是較為廣泛和充足的語料資源。但是不同語種的單語語料庫之間幾乎沒有對應關系,因此單語語料庫上的雙語翻譯詞典構造任務缺乏足夠的跨語言信息,從而使得單語語料庫上的雙語翻譯詞典獲取的任務難度大大提升。目前單語語料庫上的雙語翻譯詞典獲取方法包括使用種子詞典作為跨語言信息補充的半監督方法以及基于對抗學習等模式的完全無監督方法。其中無監督方法在近年詞嵌入技術進步的前提下處于發展和完善時期。
發明內容
本發明旨在至少在一定程度上解決相關技術中的技術問題之一。
為此,本發明的目的在于提出一種利用不同詞嵌入模型進行協同訓練的無監督雙語翻譯詞典獲取方法,該方法提升了基于無監督學習的單語語料上獲取雙語翻譯詞典的無監督方法的效果。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于哈爾濱工業大學,未經哈爾濱工業大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110688705.7/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種自動更新移動機器人地圖的方法及裝置
- 下一篇:水楊酸的高效合成方法





