[發(fā)明專利]具有錯誤自診斷和自糾錯功能的統(tǒng)計機器翻譯方法有效
| 申請?zhí)枺?/td> | 201210249223.2 | 申請日: | 2012-07-18 |
| 公開(公告)號: | CN102799579A | 公開(公告)日: | 2012-11-28 |
| 發(fā)明(設計)人: | 杜金華;王莎;郭華;張萌 | 申請(專利權(quán))人: | 西安理工大學 |
| 主分類號: | G06F17/28 | 分類號: | G06F17/28 |
| 代理公司: | 西安弘理專利事務所 61214 | 代理人: | 張瑞琪 |
| 地址: | 710048*** | 國省代碼: | 陜西;61 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 具有 錯誤 診斷 糾錯 功能 統(tǒng)計 機器翻譯 方法 | ||
技術(shù)領(lǐng)域
本發(fā)明屬于統(tǒng)計機器翻譯方法技術(shù)領(lǐng)域,具體涉及一種具有錯誤自診斷和自糾錯功能的統(tǒng)計機器翻譯方法。
背景技術(shù)
軟件本地化是指當軟件在不同文化和語言背景的地區(qū)與國家移植時,需要融合與特定區(qū)域設置有關(guān)的信息和信息翻譯有關(guān)的過程,以適應本地的文化與使用習慣。而翻譯在本地化過程中扮演著至關(guān)重要的角色,對當?shù)匚幕c語言適應的好壞直接影響該軟件在該地區(qū)或國家的推廣。在軟件本地化行業(yè),傳統(tǒng)的做法是首先使用翻譯記憶庫(Translation?Memory,TM)對軟件界面、術(shù)語、手冊或者技術(shù)文檔等按模糊匹配值(fuzzy?match)進行翻譯實例查找并輸出,然后再由后編輯人員(post-editor)參照源語言輸入句子對翻譯結(jié)果進行修正。因此,這種方式又被稱為計算機輔助翻譯(computer-assisted?translation,CAT)。
統(tǒng)計機器翻譯服務于軟件本地化的關(guān)鍵技術(shù)研究是統(tǒng)計機器翻譯研究的熱點方向之一。隨著統(tǒng)計機器翻譯技術(shù)的不斷成熟,越來越多的研究機構(gòu)和國際大公司逐步開始將統(tǒng)計機器翻譯系統(tǒng)引入其產(chǎn)品服務之中。自從20世紀90年代初IBM的研究人員Peter?Brown等提出IBM模型以來,基于統(tǒng)計的機器翻譯方法逐漸成為機器翻譯研究的主流。基于統(tǒng)計方法的思想大大推動了機器翻譯技術(shù)的發(fā)展,并涌現(xiàn)出了多種類型的統(tǒng)計機器翻譯模型,如基于短語的翻譯模型、層次短語的翻譯模型及基于句法的翻譯模型等等,其翻譯質(zhì)量也在日益提高。2002年之后,伴隨著翻譯質(zhì)量自動評估方法BLEU的出現(xiàn),統(tǒng)計機器翻譯技術(shù)不僅在系統(tǒng)性能上獲得了長足的進步,并且有效地降低了人工評價的成本。近些年來,隨著統(tǒng)計機器翻譯尤其是基于短語的機器翻譯在技術(shù)上的日趨成熟與魯棒,統(tǒng)計機器翻譯技術(shù)不斷地向?qū)嵱没蜕虡I(yè)化邁出有力的步伐。
但是,目前面向工業(yè)界應用的統(tǒng)計機器翻譯系統(tǒng)因翻譯準確度仍然無法真正滿足翻譯要求,所以大多作為人工翻譯的輔助工具,而無法獨立提供具有高置信度的翻譯結(jié)果,主要表現(xiàn)在兩個方面:
1、翻譯錯誤的預測能力不足:難以準確地對翻譯結(jié)果中潛在的翻譯錯誤進行診斷和預報,而這種功能對于后編輯人員進行高效率、低消耗的查找、判斷和更正該錯誤具有重要的意義。對于錯誤預測,目前主要有兩種解決方案。第一種是反向翻譯的方法。該方法利用反向的機器翻譯系統(tǒng)對翻譯結(jié)果(目標句子)重新翻成源語言句子S',然后把原始源語言句子S與S'以某種方式(如TER)進行對齊,根據(jù)對齊信息如插入、刪除、替換等編輯操作的多少來判定源語言端哪些片段存在問題,然后通過重定向映射到目標端,從而獲得對于潛在翻譯錯誤的判定。這種方法的缺點是正向的翻譯錯誤和反向的翻譯錯誤疊加后,某些原文所表達的意思全部丟失,從而翻譯錯誤診斷精度較低。第二種方案是基于置信度估計的方法,通常作為分類問題來解決。該方案通過對譯文進行置信度估計,綜合判斷錯誤發(fā)生的位置。目前該方法的置信估計準確率有待進一步提高。
2、翻譯錯誤自校正能力差:對于系統(tǒng)自動診斷出的翻譯錯誤,目前有兩種方案可以提供自校正功能。第一種是以目標端為對象,通過利用一些特征建立校正模型,對錯誤部分進行重新生成或替換。該方法的缺點是缺少有效的源語言知識,并且沒有考慮源端的翻譯難度。第二種是以源端為對象,通過使用外部資源以降低源端的翻譯難度,例如使用復述(paraphrase)、同義詞(synonym)或者詞干(stem)等對源端進行擴展或替換。但是,這些方法的效果都不盡如人意。
因此,設計和開發(fā)具有一定自診斷與自糾錯功能的統(tǒng)計機器翻譯系統(tǒng),不僅能夠促進機器翻譯在社會經(jīng)濟發(fā)展中的應用,而且能夠進一步增強人們對機器翻譯的信心,這對于該學科乃至該行業(yè)的進步起著關(guān)鍵性的作用。
發(fā)明內(nèi)容
本發(fā)明的目的是提供一種具有錯誤自診斷和自糾錯功能的統(tǒng)計機器翻譯方法,與現(xiàn)有統(tǒng)計機器翻譯方法相比,有效降低翻譯錯誤率,提高翻譯性能。
本發(fā)明所采用的技術(shù)方案是,一種具有錯誤自診斷和自糾錯功能的統(tǒng)計機器翻譯方法,首先定義翻譯錯誤類別,訓練錯誤分類器,對測試集進行翻譯錯誤分類,然后目標語言端翻譯錯誤映射到源語言端并構(gòu)建復述詞圖網(wǎng)絡,源語言復述詞圖網(wǎng)絡優(yōu)化,最后進行詞圖解碼,得到自校正結(jié)果。
進一步地,具體實現(xiàn)步驟如下:
步驟1、定義翻譯錯誤類別:
具體包括五種翻譯錯誤類別:正確、一般錯誤、詞序錯誤、集外詞錯誤、其他錯誤;
步驟2、訓練錯誤分類器:
步驟2.1、采用基于動態(tài)概率潛變量模型的分類器,計算公式如下:
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于西安理工大學,未經(jīng)西安理工大學許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201210249223.2/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。





