[發明專利]一種基于Transformer的增強語義特征信息的蒙漢機器翻譯方法在審
| 申請號: | 201811231017.2 | 申請日: | 2018-10-22 |
| 公開(公告)號: | CN109492232A | 公開(公告)日: | 2019-03-19 |
| 發明(設計)人: | 蘇依拉;張振;高芬;王宇飛;孫曉騫;牛向華;趙亞平;卞樂樂 | 申請(專利權)人: | 內蒙古工業大學 |
| 主分類號: | G06F17/28 | 分類號: | G06F17/28;G06F17/27;G06N3/04;G06N3/08 |
| 代理公司: | 西安智大知識產權代理事務所 61215 | 代理人: | 段俊濤 |
| 地址: | 010080 內蒙古自治區呼*** | 國省代碼: | 內蒙古;15 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 機器翻譯 注意力機制 語義特征 解碼器架構 語義 概念語義 三角函數 位置編碼 相似程度 依賴關系 語言特點 語言特征 編碼器 蒙古文 相似度 增強型 重合度 綜合分析 詞干 詞綴 遞歸 多層 構建 卷積 單詞 多頭 繪制 翻譯 輸出 衡量 融入 全局 研究 | ||
1.一種基于Transformer的增強語義特征信息的蒙漢機器翻譯方法,其特征在于,在翻譯過程中采用Transformer模型,所述Transformer模型為利用三角函數進行位置編碼并基于增強型多頭注意力機制構建的多層編碼器-解碼器架構,從而完全依賴于注意力機制來繪制輸入和輸出之間的全局依賴關系,消除遞歸和卷積。
2.根據權利要求1所述基于Transformer的增強語義特征信息的蒙漢機器翻譯方法,其特征在于,在翻譯之前,先對數據進行預處理,所述對數據進行預處理是對蒙文語料中的詞干、詞綴和格的附加成分進行切割分離,以降低數據的稀疏性,同時找出蒙文在詞干、詞綴以及格的附加成分的語言特征,并將這些語言特征融入到訓練之中。
3.根據權利要求2所述基于Transformer的增強語義特征信息的蒙漢機器翻譯方法,其特征在于,所述切割分離包括小粒度的詞綴切分、大粒度的詞干切分以及小規模的格的附加成分切分。
4.根據權利要求1所述基于Transformer的增強語義特征信息的蒙漢機器翻譯方法,其特征在于,對數據進行預處理后,綜合深度、密度、語義重合度對概念語義相似度的影響,集成語義距離與信息內容的相似度算法建立相似度矩陣,然后進行主成分分析,將相似度矩陣轉換成主成分變換矩陣,計算主成分貢獻率,并將其作為權值進行加權處理,得到最終的概念語義相似度。
5.根據權利要求4所述基于Transformer的增強語義特征信息的蒙漢機器翻譯方法,其特征在于,所述相似度矩陣的公式表示為
Xsim=(xi1,xi2,xi3,xi4,xi5)T,i=1,2,3,…,n
所述最終的概念語義相似度計算表示公式為
δsim=r1ysim1+r2ysim2+r3ysim3+r4ysim4+r5ysim5
其中,Xsim表示相似度矩陣,xi1表示Ds,xi2表示Ks,xi3表示Zs,xi4表示Ss,xi5表示Is,n是被比較概念對集合中的概念詞的對數,xi=(Dsi,Ksi,Zsi,Ssi,Isi),為主成分輸入樣本集合中的一個向量,其中每一維變量分別代表綜合相似度計算模塊中各部分語義相似度計算的結果,Dsi表示向量中第i維元素的語義距離與相似度之間的關系,Ksi表示向量中第i維元素的深度方面的語義相似度,Zsi表示向量中第i維元素的概念詞c的密度影響因子,Ssi表示向量中第i維元素的語義重合度方面的相似度,Isi表示向量中第i維元素的信息內容方面的相似度;δsim表示概念語義相似度,ysim1,ysim2,ysim3,ysim4,ysim5為對相似度矩陣Xsim進行主成分分析所提取出的主成分,r1,r2,r3,r4,r5表示各主成分貢獻率。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于內蒙古工業大學,未經內蒙古工業大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201811231017.2/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種國際語言自動配備客服的購物系統
- 下一篇:一種機器翻譯方法和裝置





