[發明專利]利用不同詞嵌入模型進行協同訓練的無監督雙語翻譯詞典獲取方法有效
| 申請號: | 202110688705.7 | 申請日: | 2021-06-21 |
| 公開(公告)號: | CN113343719B | 公開(公告)日: | 2023-03-14 |
| 發明(設計)人: | 曹海龍;楊沐昀;趙鐵軍;蘇子超 | 申請(專利權)人: | 哈爾濱工業大學 |
| 主分類號: | G06F40/58 | 分類號: | G06F40/58;G06F40/242;G06F40/284;G06N20/00 |
| 代理公司: | 哈爾濱市陽光惠遠知識產權代理有限公司 23211 | 代理人: | 孫莉莉 |
| 地址: | 150001 黑龍*** | 國省代碼: | 黑龍江;23 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 利用 不同 嵌入 模型 進行 協同 訓練 監督 雙語 翻譯 詞典 獲取 方法 | ||
1.一種利用不同詞嵌入模型進行協同訓練的無監督雙語翻譯詞典獲取方法,其特征在于,包括以下步驟:
步驟S101,獲取兩種不同的詞嵌入訓練模型,即模型A和模型B,在源語言以及目標語言的單語語料上進行訓練,得到所述模型A訓練出的源語言和目標語言的第一詞嵌入以及所述模型B訓練出的源語言和目標語言的第二詞嵌入;
步驟S102,建立兩個無監督的雙語翻譯詞典獲取進程,即進程A和進程B,并對所述進程A和所述進程B進行初始化操作,獲得所述進程A的第一初始翻譯詞典和所述進程B的第二初始翻譯詞典;
步驟S103,使用所述第一詞嵌入和所述第一初始翻譯詞典進行自學習,以更新所述第一詞嵌入,同時使用所述第二詞嵌入和所述第二初始翻譯詞典進行自學習,以更新所述第二詞嵌入;
步驟S104,利用更新后的第一詞嵌入得到當前最優進程A的雙語翻譯詞典A,利用更新后的第二詞嵌入得到當前最優進程B的雙語翻譯詞典B,再通過協同訓練對所述雙語翻譯詞典A和所述雙語翻譯詞典B進行優化過濾,得到新雙語翻譯詞典A和新雙語翻譯詞典B;
步驟S105,迭代執行所述步驟S103和所述步驟S104,直至兩個訓練進程均觀測指標收斂,分別得到最優雙語翻譯詞典A和最優雙語翻譯詞典B,具體包括:
步驟S1051,重復進行所述步驟S103和所述步驟S104,直至兩個訓練進程均觀測指標收斂,再次更新所述第一詞嵌入,再次更新所述第二詞嵌入;
步驟S1052,計算所述步驟S1051再次更新后的第一詞嵌入的相似度,獲取每個源語言單詞相對應的最優的目標語言譯文單詞,得到所述最優雙語翻譯詞典A,同時計算所述步驟S1051再次更新后的第二詞嵌入的相似度,獲取每個源語言單詞相對應的最優的目標語言譯文單詞,得到所述最優雙語翻譯詞典B。
2.根據權利要求1所述的利用不同詞嵌入模型進行協同訓練的無監督雙語翻譯詞典獲取方法,其特征在于,所述步驟S104具體包括:
步驟S1041,利用更新后的第一詞嵌入得到當前最優進程A的雙語翻譯詞典A,利用更新后的第二詞嵌入得到當前最優進程B的雙語翻譯詞典B,再建立所述雙語翻譯詞典A和所述雙語翻譯詞典B的雙語詞匯數字索引表;
步驟S1042,利用所述雙語翻譯詞典A、所述雙語翻譯詞典B以及所述雙語詞匯數字索引表進行詞典比較,去除所述雙語翻譯詞典A和所述雙語翻譯詞典B非共有的翻譯對,保留二者的相同部分建立所述新雙語翻譯詞典A和所述新雙語翻譯詞典B。
3.根據權利要求1所述的利用不同詞嵌入模型進行協同訓練的無監督雙語翻譯詞典獲取方法,其特征在于,不僅限于兩種不同的詞嵌入訓練模型,還包括模型A、模型B和模型C或模型A、模型B、模型C和模型D。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于哈爾濱工業大學,未經哈爾濱工業大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110688705.7/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種自動更新移動機器人地圖的方法及裝置
- 下一篇:水楊酸的高效合成方法





