[發明專利]一種基于Transformer的增強語義特征信息的蒙漢機器翻譯方法在審
| 申請號: | 201811231017.2 | 申請日: | 2018-10-22 |
| 公開(公告)號: | CN109492232A | 公開(公告)日: | 2019-03-19 |
| 發明(設計)人: | 蘇依拉;張振;高芬;王宇飛;孫曉騫;牛向華;趙亞平;卞樂樂 | 申請(專利權)人: | 內蒙古工業大學 |
| 主分類號: | G06F17/28 | 分類號: | G06F17/28;G06F17/27;G06N3/04;G06N3/08 |
| 代理公司: | 西安智大知識產權代理事務所 61215 | 代理人: | 段俊濤 |
| 地址: | 010080 內蒙古自治區呼*** | 國省代碼: | 內蒙古;15 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 機器翻譯 注意力機制 語義特征 解碼器架構 語義 概念語義 三角函數 位置編碼 相似程度 依賴關系 語言特點 語言特征 編碼器 蒙古文 相似度 增強型 重合度 綜合分析 詞干 詞綴 遞歸 多層 構建 卷積 單詞 多頭 繪制 翻譯 輸出 衡量 融入 全局 研究 | ||
本文提出了一種基于Transformer模型的增強語義特征信息的蒙漢機器翻譯方法。首先,本發明從蒙古文的語言特點出發,找出其在詞干、詞綴以及格的附加成分的特征,并將這些語言特征融入到模型的訓練之中。其次,本發明以衡量兩個單詞間的相似程度的分布式表示為研究背景,綜合分析了深度和密度、語義重合度對概念語義相似度的影響。本發明在翻譯過程中,采用Transformer模型,所述Transformer模型為利用三角函數進行位置編碼并基于增強型多頭注意力機制構建的多層編碼器?解碼器架構,從而完全依賴于注意力機制來繪制輸入和輸出之間的全局依賴關系,消除遞歸和卷積。
技術領域
本發明屬于機器翻譯技術領域,特別涉及一種基于Transformer的增強語義特征信息的蒙漢機器翻譯方法。
背景技術
蒙古語是一種黏著語,隸屬于阿爾泰語系。蒙古文書面文字有傳統蒙古文和西里爾蒙古文,這里我們所研究的蒙漢翻譯系統中的“蒙”指的是傳統蒙古文到漢文的翻譯。傳統蒙古文也是一種拼音文字,字母的形態并不唯一,形態的變化與字母在單詞中的位置相關,位置包括詞的單獨開頭、詞中和詞尾。蒙古文的單詞由詞根(root)+詞綴(suffix)的方式形成,詞綴分為兩類:一類用于綴接到詞根的后面賦予原來的詞以新的含義,叫做派生詞綴,詞根后面綴接一個或多個派生詞綴就會形成詞干(stem);另一類綴接到詞干后面用于表達語法意義。蒙古文的名詞、動詞都存在時態、數、格等多種變化,這些變化同樣是通過綴接詞綴來實現,因此蒙古文詞形變化非常復雜。此外,蒙古文的語序與漢語有很大的差別,蒙古文的動詞在主語和謂語的后面,位于句子的末尾,而漢語中動詞位于主語和賓語之間。
與one-hot表示只使用向量的一個維度不同,單詞的分布式表示,使用低維稠密實數向量來表示單詞。在該低維向量空間中,可以方便地根據距離或角度等度量方式,衡量兩個單詞間的相似程度。另外,在技術層面上,在對統計語言模型進行研究的背景下,Google公司在2013年開放了Word2vec這一款用于訓練詞向量的軟件工具。Word2vec可以根據給定的語料庫,通過優化后的訓練模型快速有效地將一個詞語表達成向量形式,為自然語言處理領域的應用研究提供了新的工具。然而,Word2vec依賴skip-grams或連續詞袋(CBOW)來建立神經詞嵌入。但是目前word2vec實現語義相關度計算時有一定的局限性,一方面使用待生成譯文的局部上下文信息作為預測譯文的依據,沒有使用全局的上下文信息,所以對上下文信息的利用不充分,語義特征的提取還存在提升空間。另一方面,由于框架本身的結構限制了計算的并行化,計算效率有待于提高。
傳統的機器翻譯系統,大多數是基于循環神經網絡(RNN)、長短期記憶(LSTM)或者門控遞歸神經網絡(GRU)的。在過去幾年這些方法已經成為機器翻譯等序列建模和轉換問題最先進的方法。然而遞歸模型通常考慮沿輸入和輸出序列的符號位置的計算。將位置與計算時間中的步驟對齊,它們產生一系列在位置t輸入的隱藏狀態ht,同時也是先前隱藏狀態ht-1的函數。這種固有的順序特性排除了訓練示例中的并行化,并行化在較長的序列長度中變得至關重要,因為內存約束限制了跨越示例的批處理。最近的工作通過分解技巧和基于條件的計算實現了計算效率的顯著提高,同時在后者的情況下也提高了模型性能。然而,順序計算的基本約束仍然存在。
目前編碼器-解碼器框架是解決序列到序列問題的一個主流模型。模型使用編碼器對源語言句子進行壓縮表示,使用解碼器基于源端的壓縮表示生成目標語言句子。該結構的好處是可以實現兩個句子之間端到端方式的建模,模型中所有的參數變量統一到一個目標函數下進行訓練,模型表現較好。圖1展示了編碼器-解碼器模型的結構,從底向上是一個機器翻譯的過程。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于內蒙古工業大學,未經內蒙古工業大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201811231017.2/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種國際語言自動配備客服的購物系統
- 下一篇:一種機器翻譯方法和裝置





