[發明專利]一種融合聚類算法的維漢機器翻譯系統在審
| 申請號: | 202010140937.4 | 申請日: | 2020-03-03 |
| 公開(公告)號: | CN111368563A | 公開(公告)日: | 2020-07-03 |
| 發明(設計)人: | 艾山·吾買爾;劉文其;斯拉吉艾合麥提·如則麥麥提;西熱艾力·海熱拉;早克熱·卡德爾;買合木提·買買提;汪烈軍;劉勝全 | 申請(專利權)人: | 新疆大學 |
| 主分類號: | G06F40/58 | 分類號: | G06F40/58;G06F16/35;G06K9/62;G06F40/284;G06F40/289 |
| 代理公司: | 北京匯捷知識產權代理事務所(普通合伙) 11531 | 代理人: | 張麗 |
| 地址: | 830046 新疆維吾爾*** | 國省代碼: | 新疆;65 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 融合 算法 機器翻譯 系統 | ||
本發明公開了一種融合聚類算法的維漢機器翻譯系統,由使用gensim中的Doc2vec訓練維吾爾語句子向量模型;使用k?means方法實現維吾爾語的文本聚類;使用transformer結構訓練維漢機器翻譯模型;使用微調的方法將聚類后的每一類數據分別微調機器翻譯模型得到k個子翻譯模型,融合以上方法實現了對維吾爾語的向量化,聚類并訓練維漢翻譯模型,其特征在于:由于長度較短的句子很難有豐富的語義信息。該發明根據句子長度和k?means聚類的方法更加細分了語料中的各種特征,從而提高了維漢機器翻譯的翻譯質量。
技術領域
本發明屬于機器翻譯領域,具體涉及一種融合聚類算法的維漢機器翻譯系統。
背景技術
機器翻譯(Machine Translation,MT)是利用計算機實現從一種語言翻譯成為另一種語言的自動化翻譯,大大地降低了人們因語種使用的不同而帶來的溝通障礙。在近年來,神經網絡機器翻譯系統已經取得了長足的進步,已基本取代了傳統的統計機器翻譯。無論是統計機器翻譯還是神經網絡機器翻譯,他們都依賴大規模的雙語平行語料。盡管Transformer模型在資源豐富的語言上明顯提升了翻譯質量,但是對小語種機器翻譯來說語言資源匱乏是一直存在的障礙,對于像維吾爾語類似的小語種而言,急需一個有較好的翻譯質量的系統。
端到端的神經機器翻譯(Neural Machine Translation,NMT)系統已經取得了一定的進展,相比于傳統的統計機器翻譯而言,NMT可以訓練從一個序列到另一個序列的神經網絡,因此神經網絡機器翻譯模型的基本結構是基于編碼器-解碼器(encoder-decoder)結構。結構圖如圖1所示。給定源語言句子x=(x1,x2,…,xJ),目標語言句子y=(y1,y2…yK),使用端到端的神經網絡模型直接對句子的概率進行建模:
其中θ為整個模型的參數,y<k=(y1,y2,…,yk-1)表示已經翻譯了k-1個詞。這種基于編碼器-解碼器框架使用了循環神經網絡,循環神經網絡能夠把源語言句子壓縮成一個語義向量,并把該語義向量作為解碼器循環神經網絡的輸入,依次生成目標語言的句子里的詞?;谘h神經網絡的機器翻譯模型在翻譯比較短的句子時效果還算可以,但是在翻譯長句子時,翻譯質量就會嚴重下降。
注意力機制的引入主要是動態地選擇源語言端詞的分布式表示,這樣能讓模型僅聚焦于和下一個目標詞相關的信息。使得編碼器-解碼器框架在長句子上的翻譯質量進一步提高,同時也使神經網絡機器翻譯的翻譯質量全面超越傳統的統計機器翻譯,加入注意力機制的編碼器-解碼器架構如圖2所示。通過RNN生成下一個詞的過程表示為:
p(yk|y<k,x;θ)=softmax(g(yk-1,tk,ck)) (2)
其中,g為一個非線性函數,tk為第k個解碼端隱層狀態,ck為生成第k個目標端詞對應的上下文向量。注意力模型可表示為
ejk=vTarctan(Utk+Wsj) (5)
其中,sj表示編碼端每個源端詞對應的分布式表示向量,αjk為通過編解碼端的隱層表示,V,U,W為參數。給定訓練集使用最大似然估計來對模型來進行優化
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于新疆大學,未經新疆大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010140937.4/2.html,轉載請聲明來源鉆瓜專利網。





