[發明專利]基于圖的雙語遞歸自編碼器有效
| 申請號: | 201710257714.4 | 申請日: | 2017-04-19 |
| 公開(公告)號: | CN107092594B | 公開(公告)日: | 2019-07-09 |
| 發明(設計)人: | 蘇勁松;殷建民;宋珍巧;阮志偉 | 申請(專利權)人: | 廈門大學 |
| 主分類號: | G06F17/27 | 分類號: | G06F17/27;G06F17/28 |
| 代理公司: | 廈門南強之路專利事務所(普通合伙) 35200 | 代理人: | 馬應森 |
| 地址: | 361005 *** | 國省代碼: | 福建;35 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 雙語 遞歸 編碼器 | ||
1.構建基于圖的雙語遞歸自編碼器,包括以下步驟:
1)從平行語料中抽取雙語短語作為訓練數據,計算雙語短語之間的翻譯概率;
2)基于樞軸語言的方法,計算復述概率;
3)構造雙語短語的語義關系圖;
4)基于雙語短語的語義關系圖,定義兩種隱式的語義約束;
5)量化模型目標函數,進行模型參數訓練。
2.如權利要求1所述構建基于圖的雙語遞歸自編碼器,其特征在于在步驟3)中,所述構造雙語短語的語義關系圖的具體方法為:以源端短語和目標端短語為節點,對任一源端短語和目標端短語,如果屬于雙語短語語料中的短語對,則構造一條連邊,最終所有節點集和邊集構成相應的雙語短語的語義關系圖。
3.如權利要求1所述構建基于圖的雙語遞歸自編碼器,其特征在于步驟4)中,所述基于雙語短語的語義關系圖,定義兩種隱式的語義約束條件的具體方法為:對于同一語言中的兩個不同節點,如果它們連接到另一語言的相同節點集合,則認為它們在語義空間上相互接近,此為約束一;對于一種語言的任一節點,其與另一種語言的不同相鄰節點的語義相關強度應與基于最大似然估計得到的短語翻譯概率緊密相關,此為約束二。
4.如權利要求1所述構建基于圖的雙語遞歸自編碼器,其特征在于在步驟5)中,所述量化模型目標函數,進行模型參數訓練的具體方法為:傳統的雙語遞歸自編碼器包含單語重構誤差和雙語對齊一致性分布;在此基礎上,同時將定義的兩個隱式的語義約束條件作用于雙語短語上,引入單語相似一致性分數和雙語翻譯分布一致性分數;即若同一語言中的兩個節點滿足約束一,則其相應的短語表示在向量空間中的歐式距離應該盡可能的小,所述歐式距離用以表征單語相似一致性分數,對于約束二,一種語言中的任一節點與另一語言中的不同相鄰節點基于短語表示計算得到的概率分布和基于最大似然估計得到的概率分布盡量保持一致,用KL距離衡量兩個分布的一致性,所述KL距離用以表征雙語翻譯分布一致性分數。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于廈門大學,未經廈門大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710257714.4/1.html,轉載請聲明來源鉆瓜專利網。





