[發明專利]融合EMD最小化雙語詞典的漢-越無監督神經機器翻譯方法有效
| 申請號: | 202010096013.9 | 申請日: | 2020-02-17 |
| 公開(公告)號: | CN111753557B | 公開(公告)日: | 2022-12-20 |
| 發明(設計)人: | 余正濤;薛明亞;高盛祥;賴華;翟家欣;朱恩昌;陳瑋 | 申請(專利權)人: | 昆明理工大學 |
| 主分類號: | G06F40/58 | 分類號: | G06F40/58;G06F40/289;G06F40/284;G06F40/242;G06F40/247;G06F16/951 |
| 代理公司: | 昆明人從眾知識產權代理有限公司 53204 | 代理人: | 代轉嫚 |
| 地址: | 650093 云南省昆明*** | 國省代碼: | 云南;53 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 融合 emd 最小化 雙語 詞典 監督 神經 機器翻譯 方法 | ||
1.融合EMD最小化雙語詞典的漢-越無監督神經機器翻譯方法,其特征在于:
具體步驟如下:
Step1、語料收集:使用網絡爬蟲爬取漢語和越南語單語語料;
Step2、語料預處理:在步驟Step1的基礎上,對漢語和越南語單語句子分詞和詞性標記,訓練得到單語詞向量;
Step3、基于EMD最小化的無監督雙語詞典:在步驟Step2的基礎上,根據漢語和越南語單語詞向量,利用基于EMD最小化的方法訓練無監督的漢越雙語詞典;
Step4、得到漢越雙語詞嵌入:在步驟Step2和Step3的基礎上,將基于EMD最小化的無監督雙語詞典作為種子詞典指導雙語詞嵌入的學習;生成漢越雙語詞嵌入;
Step5、在步驟Step4的基礎上,將雙語詞向量應用在共享編碼器的無監督神經機器翻譯模型上,訓練得到融合EMD最小化雙語詞典的漢-越無監督神經機器翻譯模型;
步驟Step4中,進行詞嵌入映射:假設語言漢語和越南語的詞嵌入矩陣分別為X和Y,為源語言的第i個詞的向量,為目標語言的第j個詞的向量;詞典D為一個二進制的矩陣,當源語言第i個詞與目標語言的第j個詞對齊時,Dij=1,詞映射的目標是找到一個映射矩陣W*,使映射后的和的歐幾里得距離最近,即
對矩陣X和Y進行標準化和中心化,并將W設置為正交矩陣后,上述求解歐幾里得距離的問題相當于最大化點積:
其中,Tr表示矩陣的跡運算,求解得到最優解為W*=UVT,U、V表示兩個正交矩陣,經過奇異值分解,XTDY=U∑VT,鑒于矩陣D是稀疏的,在線性時間內得到解;
詞典自學習為:映射后的源語言詞的詞向量與目標語言詞的詞向量在同一個空間,根據最近鄰檢索的方法,為每個源語言詞分配一個距離最近的目標語言詞,將對齊的詞對添加到詞典中,再次進行迭代,直到收斂。
2.根據權利要求1所述的融合EMD最小化雙語詞典的漢-越無監督神經機器翻譯方法,其特征在于:所述步驟Step2的具體步驟為:
Step2、漢語和越南語單語句子分詞和詞性標注,用分詞和詞性標注工具進行漢語和越南語單語語料的分詞處理和詞性標注,利用詞向量訓練工具獲得漢越單語詞嵌入。
3.根據權利要求1所述的融合EMD最小化雙語詞典的漢-越無監督神經機器翻譯方法,其特征在于:所述步驟Step3的具體步驟為:
Step3、用漢語詞向量分布與越南語詞向量分布之間的EMD最小化方法,將詞向量視為概率分布,將分布之間的距離作為詞匯表級別的準則,以不使用任何種子詞典的無監督方式訓練找到漢越詞向量分布之間的EMD最小化,獲得漢越雙語詞典。
4.根據權利要求1所述的融合EMD最小化雙語詞典的漢-越無監督神經機器翻譯方法,其特征在于:步驟Step4的具體步驟為:
利用Step3中獲得的漢越雙語詞典作種子詞典;利用自學習模型指導漢越單語詞嵌入訓練;獲得漢越雙語詞嵌入訓練。
5.根據權利要求1所述的融合EMD最小化雙語詞典的漢-越無監督神經機器翻譯方法,其特征在于:步驟Step5中:
使用共享編碼器模型,將訓練好的融合EMD雙語詞典的雙語詞嵌入應用在共享編碼器的模型中,用于實現漢-越雙語之間的詞級對應關系,訓練漢越無監督的神經機器翻譯模型。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于昆明理工大學,未經昆明理工大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010096013.9/1.html,轉載請聲明來源鉆瓜專利網。





