[發明專利]采用隱樹注意力的神經機器翻譯在審
| 申請號: | 201880024708.7 | 申請日: | 2018-04-11 |
| 公開(公告)號: | CN110506279A | 公開(公告)日: | 2019-11-26 |
| 發明(設計)人: | J·布拉德伯里 | 申請(專利權)人: | 易享信息技術有限公司 |
| 主分類號: | G06N3/04 | 分類號: | G06N3/04 |
| 代理公司: | 11336 北京市磐華律師事務所 | 代理人: | 高偉<國際申請>=PCT/US2018/ |
| 地址: | 美國加利*** | 國省代碼: | 美國;US |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 機器翻譯 注意力 解析 循環神經網絡 自然語言處理 解碼器 先驗 層次結構 模型實現 模型學習 目標序列 梯度強化 應用策略 編碼器 樹結構 數據集 無監督 源序列 分割 基線 淺層 語法 誘導 神經 語言 學習 | ||
1.一種注意力神經機器翻譯系統,用于將第一語言的源序列翻譯成第二語言的目標序列,所述系統包括:
編碼器裝置,用于編碼所述源序列的令牌和所述源序列的短語樹結構,其中所述源序列的所述短語樹結構中的至少一個包括:
編碼器樹節點,其在預測所述源序列的所述短語樹結構的短語類型時表示編碼器狀態,以及
編碼器組合嵌入,其表示所述源序列的所述短語樹結構的成分;以及
基于注意力的解碼器裝置,用于輸出所述目標序列的令牌和所述目標序列的短語樹結構,其中用于所述目標序列的每個所述短語樹結構的預測短語類型的解碼器嵌入是由注意力權重縮放的編碼器組合嵌入的凸組合。
2.如權利要求1所述的系統,其中所述編碼器裝置和所述基于注意力的解碼器裝置是長短期記憶(LSTM)網絡。
3.如權利要求1所述的系統,其中所述編碼器裝置和所述基于注意力的解碼器裝置每個包括計算編碼器組合嵌入和解碼器組合嵌入的雙向LSTM(Bi-LSTM)。
4.如權利要求1所述的系統,其中所述編碼器裝置和所述基于注意力的解碼器裝置是僅堆棧循環神經網絡語法(s-RNNG)網絡。
5.如權利要求1-4中任一項所述的系統,還被配置為:
使用所述源序列的最終編碼器組合嵌入作為用于所述目標序列的最初預測的短語類型的解碼器嵌入。
6.如權利要求1-4中任一項所述的系統,還被配置為:
使用策略梯度強化學習來誘導所述源序列和所述目標序列兩者的無監督短語樹結構。
7.如權利要求1-6中任一項所述的系統,其中所述短語樹結構是成分解析樹結構。
8.如權利要求1-6中任一項所述的系統,其中所述短語樹結構是依賴性解析樹結構。
9.如權利要求1-8中任一項所述的系統,還包括:
比較器裝置,用于將表示當前解碼器狀態的解碼器樹節點與表示編碼期間的不同編碼器狀態的編碼器樹節點進行比較;
歸一化器,用于指數歸一化所述比較的結果;以及
組合器裝置,用于使用所述指數歸一化的結果作為所述注意力權重來計算對應于所述編碼器樹節點的編碼器組合嵌入的加權和。
10.如權利要求9所述的系統,其中使用內積、雙線性函數和單層神經網絡中的至少一個來執行所述比較。
11.如權利要求10所述的系統,其中所述比較測量所述源序列的所述短語樹結構與所述目標序列的所述短語樹結構之間的句法結構相似度。
12.如權利要求11所述的系統,其中所述源序列和所述目標序列的句法上最相似的短語樹結構之間的比較產生最高的注意力權重。
13.如權利要求1-8中任一項所述的系統,其中所述令牌是基于字符的令牌。
14.如權利要求13所述的系統,其中使用實值向量對所述基于字符的令牌進行密集編碼。
15.如權利要求13所述的系統,其中使用獨熱向量對所述基于字符的令牌進行稀疏編碼。
16.如權利要求1-15中任一項所述的系統,其中所述源序列和所述目標序列兩者的短語樹結構包括一個或更多個基于字符的令牌成分和短語類型成分。
17.如權利要求16所述的系統,還被配置為使用固定向量作為所述源序列的所述短語樹結構的不同短語類型成分的公共嵌入。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于易享信息技術有限公司,未經易享信息技術有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201880024708.7/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:隱空間中的目標檢測
- 下一篇:神經網絡訓練系統、方法和計算機可讀存儲介質





