[發(fā)明專利]具有錯(cuò)誤自診斷和自糾錯(cuò)功能的統(tǒng)計(jì)機(jī)器翻譯方法有效
| 申請(qǐng)?zhí)枺?/td> | 201210249223.2 | 申請(qǐng)日: | 2012-07-18 |
| 公開(公告)號(hào): | CN102799579A | 公開(公告)日: | 2012-11-28 |
| 發(fā)明(設(shè)計(jì))人: | 杜金華;王莎;郭華;張萌 | 申請(qǐng)(專利權(quán))人: | 西安理工大學(xué) |
| 主分類號(hào): | G06F17/28 | 分類號(hào): | G06F17/28 |
| 代理公司: | 西安弘理專利事務(wù)所 61214 | 代理人: | 張瑞琪 |
| 地址: | 710048*** | 國(guó)省代碼: | 陜西;61 |
| 權(quán)利要求書: | 查看更多 | 說(shuō)明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 具有 錯(cuò)誤 診斷 糾錯(cuò) 功能 統(tǒng)計(jì) 機(jī)器翻譯 方法 | ||
1.一種具有錯(cuò)誤自診斷和自糾錯(cuò)功能的統(tǒng)計(jì)機(jī)器翻譯方法,其特征在于,首先定義翻譯錯(cuò)誤類別,訓(xùn)練錯(cuò)誤分類器,對(duì)測(cè)試集進(jìn)行翻譯錯(cuò)誤分類,然后目標(biāo)語(yǔ)言端翻譯錯(cuò)誤映射到源語(yǔ)言端并構(gòu)建復(fù)述詞圖網(wǎng)絡(luò),源語(yǔ)言復(fù)述詞圖網(wǎng)絡(luò)優(yōu)化,最后進(jìn)行詞圖解碼,得到自校正結(jié)果。
2.按照權(quán)利要求1所述的具有錯(cuò)誤自診斷和自糾錯(cuò)功能的統(tǒng)計(jì)機(jī)器翻譯方法,其特征在于,具體實(shí)現(xiàn)步驟如下:
步驟1、定義翻譯錯(cuò)誤類別:
具體包括五種翻譯錯(cuò)誤類別:正確、一般錯(cuò)誤、詞序錯(cuò)誤、集外詞錯(cuò)誤、其他錯(cuò)誤;
步驟2、訓(xùn)練錯(cuò)誤分類器:
步驟2.1、采用基于動(dòng)態(tài)概率潛變量模型的分類器,計(jì)算公式如下:
其中,P(y|x,θ)表示翻譯假設(shè)被標(biāo)注為序列y的概率;θ是模型參數(shù);x是觀察序列,具體指翻譯譯文中的詞序列;y是標(biāo)注序列,具體指步驟1中定義的翻譯錯(cuò)誤類別;h表示隱含變量序列;
將系統(tǒng)特征、語(yǔ)料庫(kù)特征和外部知識(shí)源特征作為模型參數(shù)θ加入到動(dòng)態(tài)概率潛變量模型中,得到初始模型;
步驟2.2、選定模型參數(shù)訓(xùn)練開發(fā)集,按照步驟1定義的翻譯錯(cuò)誤類別對(duì)開發(fā)集中的翻譯假設(shè)進(jìn)行錯(cuò)誤類型標(biāo)注,得到監(jiān)督學(xué)習(xí)的訓(xùn)練樣本數(shù)據(jù);
步驟2.3、利用步驟2.2得到的訓(xùn)練樣本數(shù)據(jù)對(duì)步驟2.1得到的初始模型進(jìn)行訓(xùn)練,公式如下:
其中,L(θ)表示未知參數(shù)的最大似然估計(jì),n表示樣本向量個(gè)數(shù),i表示某一樣本向量,P(yi|xi,θ)表示樣本xi在參數(shù)為θ條件下標(biāo)注為序列yi的概率,R(θ)表示調(diào)控因子,主要防止訓(xùn)練過(guò)擬合;
迭代收斂后得到訓(xùn)練后的錯(cuò)誤分類器;
步驟3、對(duì)測(cè)試集進(jìn)行翻譯錯(cuò)誤分類:
利用步驟2得到的訓(xùn)練后的錯(cuò)誤分類器,采用如下公式對(duì)測(cè)試集翻譯假設(shè)進(jìn)行錯(cuò)誤識(shí)別和分類:
其中,argmax表示參數(shù)最大化運(yùn)算;θ*表示步驟2得到訓(xùn)練后錯(cuò)誤分類器的參數(shù);y*表示分類結(jié)果;P(y|x,θ*)表示在已知模型參數(shù)θ*和樣本x時(shí),標(biāo)注為序列y的概率;
步驟4、目標(biāo)語(yǔ)言端翻譯錯(cuò)誤映射到源語(yǔ)言端,并構(gòu)建復(fù)述詞圖網(wǎng)絡(luò):
對(duì)步驟3得到的翻譯錯(cuò)誤分類后的翻譯假設(shè)通過(guò)詞對(duì)齊信息映射到源語(yǔ)言端,確定相應(yīng)源語(yǔ)言短語(yǔ)或詞Si的位置及邊界,然后從源語(yǔ)言復(fù)述庫(kù)中查找Si的復(fù)述,并取前多個(gè)作為Si的復(fù)述候選,以源語(yǔ)言輸入初始句子為主干,構(gòu)建復(fù)述詞圖網(wǎng)絡(luò);
構(gòu)建復(fù)述詞圖網(wǎng)絡(luò)過(guò)程中,對(duì)翻譯假設(shè)中的詞根據(jù)其翻譯錯(cuò)誤類別標(biāo)識(shí)進(jìn)行復(fù)述構(gòu)建,即:1)對(duì)于分類為“正確”的詞,不進(jìn)行復(fù)述詞圖構(gòu)建;2)對(duì)于分類為“一般錯(cuò)誤”、“集外詞錯(cuò)誤”和“其他錯(cuò)誤”的詞,直接從復(fù)述庫(kù)中查找復(fù)述候選,然后構(gòu)建詞圖;3)對(duì)于分類為“詞序錯(cuò)誤”的詞,在構(gòu)建詞圖時(shí),將所對(duì)應(yīng)的邊進(jìn)行調(diào)序標(biāo)記,供解碼時(shí)調(diào)序懲罰約束使用;
步驟5、源語(yǔ)言復(fù)述詞圖網(wǎng)絡(luò)優(yōu)化:
采用基于混淆網(wǎng)絡(luò)的方法對(duì)步驟4得到的復(fù)述詞圖網(wǎng)絡(luò)進(jìn)行壓縮和合并重復(fù)的路徑,具體是將原詞圖中的結(jié)點(diǎn)按邊進(jìn)行對(duì)齊,若兩結(jié)點(diǎn)間的邊上的詞是相同的,則按概率大小保留較大的邊,刪除概率較小的邊;
第六步,詞圖解碼,得到自校正結(jié)果:
具體是對(duì)步驟5得到的優(yōu)化后的源語(yǔ)言復(fù)述詞圖網(wǎng)絡(luò)進(jìn)行詞圖解碼,最終得到錯(cuò)誤校正后的翻譯結(jié)果。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于西安理工大學(xué),未經(jīng)西安理工大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201210249223.2/1.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專利網(wǎng)。
- 同類專利
- 專利分類
G06F 電數(shù)字?jǐn)?shù)據(jù)處理
G06F17-00 特別適用于特定功能的數(shù)字計(jì)算設(shè)備或數(shù)據(jù)處理設(shè)備或數(shù)據(jù)處理方法
G06F17-10 .復(fù)雜數(shù)學(xué)運(yùn)算的
G06F17-20 .處理自然語(yǔ)言數(shù)據(jù)的
G06F17-30 .信息檢索;及其數(shù)據(jù)庫(kù)結(jié)構(gòu)
G06F17-40 .數(shù)據(jù)的獲取和記錄
G06F17-50 .計(jì)算機(jī)輔助設(shè)計(jì)





