[發(fā)明專利]一種基于融合統(tǒng)計(jì)機(jī)器翻譯模型的蒙漢神經(jīng)機(jī)器翻譯方法在審
| 申請(qǐng)?zhí)枺?/td> | 202111112986.8 | 申請(qǐng)日: | 2021-09-23 |
| 公開(公告)號(hào): | CN113850089A | 公開(公告)日: | 2021-12-28 |
| 發(fā)明(設(shè)計(jì))人: | 仁慶道爾吉;龐蕊;張倩;文麗霞;劉永超;張畢力格圖;李雷孝;薩和雅 | 申請(qǐng)(專利權(quán))人: | 內(nèi)蒙古工業(yè)大學(xué) |
| 主分類號(hào): | G06F40/58 | 分類號(hào): | G06F40/58;G06N3/04;G06N3/08 |
| 代理公司: | 武漢菲翔知識(shí)產(chǎn)權(quán)代理有限公司 42284 | 代理人: | 李慧奇 |
| 地址: | 010051 內(nèi)蒙古*** | 國省代碼: | 內(nèi)蒙古;15 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 融合 統(tǒng)計(jì) 機(jī)器翻譯 模型 神經(jīng) 方法 | ||
1.一種基于融合統(tǒng)計(jì)機(jī)器翻譯模型的蒙漢神經(jīng)機(jī)器翻譯方法,其特征在于:具體包括以下步驟:
S1、NMT分類器繼承標(biāo)準(zhǔn)的基于注意力的NMT后在規(guī)則詞表上估計(jì)單詞的預(yù)測(cè)概率;
S2、SMT分類器計(jì)算由輔助SMT模型生成的SMT建議的概率;
S3、將SMT建議整合到NMT中。
2.根據(jù)權(quán)利要求1所述的一種基于融合統(tǒng)計(jì)機(jī)器翻譯模型的蒙漢神經(jīng)機(jī)器翻譯方法,其特征在于:所述S1中標(biāo)準(zhǔn)的基于注意力的NMT的翻譯過程為,給定源句子NMT將其編碼為一個(gè)向量序列,之后使用該向量序列生成目標(biāo)句子
3.根據(jù)權(quán)利要求2所述的一種基于融合統(tǒng)計(jì)機(jī)器翻譯模型的蒙漢神經(jīng)機(jī)器翻譯方法,其特征在于:所述基于注意力的NMT使用一個(gè)由正向RNN和反向RNN組成的雙向RNN對(duì)源句子進(jìn)行編碼,其中正向RNN順序閱讀源句子x,生成一個(gè)正向的隱藏狀態(tài)序列反向RNN則反向閱讀源句子x并生成一個(gè)反向的隱藏狀態(tài)序列將每個(gè)位置的隱藏狀態(tài)對(duì)串聯(lián)起來,形成該位置的單詞注釋,從而得到整個(gè)源句的注釋,其中
4.根據(jù)權(quán)利要求2所述的一種基于融合統(tǒng)計(jì)機(jī)器翻譯模型的蒙漢神經(jīng)機(jī)器翻譯方法,其特征在于:所述在解碼的時(shí)間步t,輸出目標(biāo)序列y<t=y(tǒng)1,y2,...,yt-1之后,下一個(gè)單詞yt由下式所示條件概率生成:p(yt|y<t,x)=softmax(f(st,yt-1,ct)),其中f(·)為非線性激活函數(shù),st是時(shí)間步t時(shí)解碼器的隱藏狀態(tài):st=g(st-1,yt-1,ct),其中g(shù)(·)為非線性激活函數(shù),此處使用門控循環(huán)單元作為編碼器和解碼器的激活函數(shù);ct是上下文向量,由源句子注釋的加權(quán)和計(jì)算而得:其中hj為源單詞xj的注釋,其權(quán)重αt,j由注意力模型計(jì)算而得。
5.根據(jù)權(quán)利要求1所述的一種基于融合統(tǒng)計(jì)機(jī)器翻譯模型的蒙漢神經(jīng)機(jī)器翻譯方法,其特征在于:所述S2中的所述統(tǒng)計(jì)機(jī)器翻譯模型由對(duì)數(shù)線性框架定義:其中hm(y,x)為特征函數(shù),λm為它的權(quán)重。在翻譯過程中,SMT解碼器通過從雙語短語表中為未翻譯的源句子部分選擇合適的目標(biāo)詞或短語翻譯來擴(kuò)展局部翻譯y<t=y(tǒng)1,y2,...,yt-1(在SMT中稱為翻譯假設(shè))。
6.根據(jù)權(quán)利要求1或5所述的一種基于融合統(tǒng)計(jì)機(jī)器翻譯模型的蒙漢神經(jīng)機(jī)器翻譯方法,其特征在于:所述S2中的實(shí)現(xiàn)方式為:給定NMT生成的詞y<t=y(tǒng)1,y2,...,yt-1,SMT生成下一個(gè)單詞的建議,并用下式計(jì)算建議分?jǐn)?shù):其中yt是SMT的一個(gè)建議,xt是對(duì)應(yīng)的源跨度,hm(yt,xt)是特征函數(shù),λm是其權(quán)重,SMT模型可以通過擴(kuò)展生成的單詞來生成適當(dāng)?shù)膯卧~推薦(局部翻譯)。
7.根據(jù)權(quán)利要求1所述的一種基于融合統(tǒng)計(jì)機(jī)器翻譯模型的蒙漢神經(jīng)機(jī)器翻譯方法,其特征在于:所述S3中采用兩種策略來過濾低質(zhì)量的建議以保證SMT建議的質(zhì)量:①根據(jù)翻譯分?jǐn)?shù),僅保留前Ntm的源詞翻譯,翻譯分?jǐn)?shù)作為翻譯概率的權(quán)重和進(jìn)行計(jì)算;②選擇最高SMT得分的前Nrec的建議,每一個(gè)都作為SMT特征的加權(quán)和進(jìn)行計(jì)算。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于內(nèi)蒙古工業(yè)大學(xué),未經(jīng)內(nèi)蒙古工業(yè)大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202111112986.8/1.html,轉(zhuǎn)載請(qǐng)聲明來源鉆瓜專利網(wǎng)。
- 統(tǒng)計(jì)系統(tǒng)、統(tǒng)計(jì)裝置和統(tǒng)計(jì)方法
- 人數(shù)統(tǒng)計(jì)方法和人數(shù)統(tǒng)計(jì)系統(tǒng)
- 統(tǒng)計(jì)物體數(shù)量的統(tǒng)計(jì)系統(tǒng)
- 網(wǎng)絡(luò)處理器的統(tǒng)計(jì)計(jì)數(shù)方法
- 統(tǒng)計(jì)信息上報(bào)方法及裝置
- 稿件統(tǒng)計(jì)方法和稿件統(tǒng)計(jì)系統(tǒng)
- 數(shù)據(jù)統(tǒng)計(jì)方法及裝置
- 獲取數(shù)據(jù)的統(tǒng)計(jì)狀態(tài)的方法及裝置
- 信息統(tǒng)計(jì)方法和信息統(tǒng)計(jì)裝置
- 電量統(tǒng)計(jì)系統(tǒng)及電量統(tǒng)計(jì)方法
- 一種用于提高機(jī)器翻譯質(zhì)量的裝置和方法
- 機(jī)器翻譯方法和裝置
- 一種ERP術(shù)語機(jī)器翻譯方法
- 機(jī)器翻譯引擎推薦方法及裝置
- 神經(jīng)機(jī)器翻譯模型的訓(xùn)練方法、裝置及存儲(chǔ)介質(zhì)
- 基于機(jī)器翻譯引擎的翻譯方法及裝置
- 一種基于篇章的機(jī)器翻譯引擎測(cè)評(píng)優(yōu)選方法及系統(tǒng)
- 機(jī)器翻譯引擎服務(wù)恢復(fù)方法及裝置
- 一種基于預(yù)訓(xùn)練的稀缺資源神經(jīng)機(jī)器翻譯訓(xùn)練方法
- 基于混合策略的移動(dòng)設(shè)備機(jī)器翻譯系統(tǒng)





