[發(fā)明專利]一種譯文檢查方法及其系統(tǒng)有效
| 申請?zhí)枺?/td> | 201310456548.2 | 申請日: | 2013-09-29 |
| 公開(公告)號: | CN104516870B | 公開(公告)日: | 2018-08-07 |
| 發(fā)明(設(shè)計(jì))人: | 葉茂;王元龍;金立峰;湯幟;徐劍波 | 申請(專利權(quán))人: | 北大方正集團(tuán)有限公司;北京方正阿帕比技術(shù)有限公司;北京大學(xué) |
| 主分類號: | G06F17/27 | 分類號: | G06F17/27;G06F17/28 |
| 代理公司: | 北京三聚陽光知識產(chǎn)權(quán)代理有限公司 11250 | 代理人: | 寇海俠 |
| 地址: | 100871 北京市*** | 國省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 譯文 檢查 方法 及其 系統(tǒng) | ||
本發(fā)明提供一種譯文檢查方法及其系統(tǒng),包括初始化處理和檢查判定處理。所述初始化處理,基于一批語料來訓(xùn)練二元語法模型,作為檢查評分模型,為所述檢查判定處理時(shí)給譯文打分提供依據(jù)。所述檢查判定處理,通過所述檢查評分模型給譯文打分,將譯文得分與預(yù)設(shè)判定閾值比較,將得分小于所述預(yù)設(shè)判定閾值的譯文判定為“錯(cuò)誤”,否則判定為“正確”。上述技術(shù)方案有效避免了現(xiàn)有技術(shù)中對譯文檢測方法很大程度上依賴于雙語專家或高質(zhì)量的人工翻譯譯文作為參照,同時(shí)不能判斷正確與否,只能判斷評測譯文的好差程度的問題。
技術(shù)領(lǐng)域
本發(fā)明涉及一種譯文檢查方法及其系統(tǒng),具體是一種基于二元語法模型的譯文檢查方法及其系統(tǒng),屬于電數(shù)字?jǐn)?shù)據(jù)處理方法技術(shù)領(lǐng)域。
背景技術(shù)
近年來,機(jī)器翻譯(Machine Translation)的應(yīng)用越來越廣泛,而且對機(jī)器翻譯譯文的質(zhì)量要求越來越高。在翻譯領(lǐng)域內(nèi),即使最好的翻譯人員也很難達(dá)到翻譯界所要求的最高標(biāo)準(zhǔn)“信、達(dá)、雅”,因此機(jī)器翻譯評價(jià)成為一個(gè)重要而困難的課題。
由于要對譯文質(zhì)量評價(jià)至少要懂得兩種語言,譯文質(zhì)量評價(jià)成為一項(xiàng)難度很大的智力活動,因此對機(jī)器翻譯的譯文質(zhì)量的評價(jià)通常由專家來進(jìn)行,而且價(jià)格成本不菲,評價(jià)過程也非常耗時(shí)而且不可重用。
一般機(jī)器譯文的評價(jià)出發(fā)點(diǎn)為“有多好”和“哪個(gè)更好”,如果在人工對譯文評價(jià)之前,將譯文中“不正確”或“錯(cuò)誤”的譯文篩選出來,將大大縮減人工評價(jià)譯文的成本和時(shí)間。
在翻譯需求中,有一類是針對領(lǐng)域短語的翻譯,由于領(lǐng)域短語包含的文字不多且通常具備顯著的領(lǐng)域特征,因此通過一定量的領(lǐng)域語料,能夠從不同角度發(fā)現(xiàn)其規(guī)律,并建立模型。
現(xiàn)有技術(shù)中IBM提出的基于N元匹配的BLEU機(jī)器翻譯評測方法需要不同的雙語專家對原文進(jìn)行翻譯得到參考譯文,然后計(jì)算機(jī)器譯文與這多個(gè)參考譯文的字符串相似度,從而實(shí)現(xiàn)對機(jī)器翻譯譯文質(zhì)量的評測。該方法進(jìn)行評測譯文時(shí),需要提供人工翻譯的高質(zhì)量譯文作為參照,獲取大量高質(zhì)量譯文的成本很高;同時(shí)在很大程度上依賴于雙語專家,其成本仍然很大;另外該方法只能評測譯文有“多好”,而不能判斷翻譯譯文是否“錯(cuò)誤”。
現(xiàn)有技術(shù)中還公開了一種機(jī)器翻譯自糾錯(cuò)的方法,首先定義翻譯錯(cuò)誤類別,將翻譯錯(cuò)誤類別定義為正確、一般錯(cuò)誤、次序錯(cuò)誤、集外詞錯(cuò)誤、其他錯(cuò)誤五類;訓(xùn)練錯(cuò)誤分類器,對翻譯錯(cuò)誤進(jìn)行分類;將翻譯映射到源語言端并構(gòu)建復(fù)述詞圖網(wǎng)絡(luò);最后得到詞圖解碼并加以校正。該方法首先通過抽取與具體語言相關(guān)的字、詞、詞性標(biāo)注、句法、語法、語義特征建立語料庫,構(gòu)造訓(xùn)練模型,需要大量語料的準(zhǔn)備有很大的難度;其次該方法是基于動態(tài)概率潛變量模型的算法也需要大規(guī)模的語料準(zhǔn)備數(shù)據(jù);另外,該方法只能檢查所定義的翻譯錯(cuò)誤類別,如果譯文的錯(cuò)誤類別不屬于所定義的翻譯錯(cuò)誤類別,則不能判斷翻譯譯文是否“錯(cuò)誤”。
發(fā)明內(nèi)容
本發(fā)明所要解決的技術(shù)問題是現(xiàn)有技術(shù)中譯文檢測方法在很大程度上依賴于雙語專家,同時(shí)不能判斷正確與否,只能判斷評測譯文的好差程度,從而提供一種通過學(xué)習(xí)語料,訓(xùn)練出二元語法模型,通過該模型自動將相關(guān)的海量譯文中“不正確”或“錯(cuò)誤”的短語譯文過濾掉的譯文檢查方法。
為解決上述技術(shù)問題,本發(fā)明是通過以下技術(shù)方案實(shí)現(xiàn)的:
一種譯文檢查方法,包括初始化處理和檢查評定處理,
所述初始化處理,基于一批語料,通過統(tǒng)計(jì)語料二元切分條目的概率信息,來獲得二元語法模型,作為檢查評分模型,為所述檢查判定處理時(shí)給譯文打分提供依據(jù);
所述檢查評定處理,通過所述檢查評分模型給譯文打分,將譯文得分與預(yù)設(shè)判定閾值比較,將得分小于所述預(yù)設(shè)判定閾值的譯文判定為“錯(cuò)誤”,否則判定為“正確”。
所述初始化處理的步驟如下:
獲取文本集D,d∈D,其中d表示所述文本集D的一個(gè)文本;
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于北大方正集團(tuán)有限公司;北京方正阿帕比技術(shù)有限公司;北京大學(xué),未經(jīng)北大方正集團(tuán)有限公司;北京方正阿帕比技術(shù)有限公司;北京大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201310456548.2/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 同類專利
- 專利分類
G06F 電數(shù)字?jǐn)?shù)據(jù)處理
G06F17-00 特別適用于特定功能的數(shù)字計(jì)算設(shè)備或數(shù)據(jù)處理設(shè)備或數(shù)據(jù)處理方法
G06F17-10 .復(fù)雜數(shù)學(xué)運(yùn)算的
G06F17-20 .處理自然語言數(shù)據(jù)的
G06F17-30 .信息檢索;及其數(shù)據(jù)庫結(jié)構(gòu)
G06F17-40 .數(shù)據(jù)的獲取和記錄
G06F17-50 .計(jì)算機(jī)輔助設(shè)計(jì)
- 利用語句結(jié)構(gòu)信息的機(jī)器翻譯自動評測系統(tǒng)及實(shí)現(xiàn)方法
- 一種翻譯文件的比對方法
- 一種翻譯方法及系統(tǒng)
- 一種譯文檢測方法、裝置及電子設(shè)備
- 譯文質(zhì)量檢測方法、裝置、機(jī)器翻譯系統(tǒng)和存儲介質(zhì)
- 面向翻譯譯文的自動評分方法及自動評分系統(tǒng)
- 一種文本顯示方法及相關(guān)設(shè)備
- 文檔翻譯方法和裝置、存儲介質(zhì)和電子設(shè)備
- 機(jī)器翻譯效果評測方法、裝置、設(shè)備及存儲介質(zhì)
- 基于xml的腳本語言轉(zhuǎn)換方法、編輯器、設(shè)備及存儲介質(zhì)





