[發明專利]一種機器翻譯后編輯處理方法在審
| 申請號: | 201610045883.7 | 申請日: | 2016-01-22 |
| 公開(公告)號: | CN105740218A | 公開(公告)日: | 2016-07-06 |
| 發明(設計)人: | 姚佳;劉世林;吳雨濃;陳炳章 | 申請(專利權)人: | 成都數聯銘品科技有限公司 |
| 主分類號: | G06F17/24 | 分類號: | G06F17/24;G06F17/28 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 610041 四川省成都市高新區*** | 國省代碼: | 四川;51 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 機器翻譯 編輯 處理 方法 | ||
技術領域
本發明涉及機器翻譯領域,特別涉及一種機器翻譯后編輯處理方法。
背景技術
如今互聯網已經遍布全球,來自不同國籍和民族的人們能夠隨時隨地分享交流信息;人們也迫切希望能快速暢通的獲得網絡上的所有信息。故而,多種語言之間準確高效的機器自動翻譯在現在以及未來的國際化氛圍下,有著極大的市場需求。但是,一個性能高、功能強大、準確率高的互聯網多語言翻譯系統在現在的技術水平下,還需要有很多重大的技術難點需要克服。在現有的機器翻譯水平之下,高質量的可用的機器譯文依然是不可得的。目前解決這一問題的一般方式為使用機器翻譯作為前期處理,對機器翻譯的結果作人工后編輯,從而能夠得到可用的翻譯結果。一般情況下要得到高質量的翻譯結果,對人工后編輯的編輯人員的專業素質要求極高,專家級的人工后編輯人員是必不可少的,但是面對巨大的翻譯需求缺口,人工后編輯的工作量極大,數量有限的專家是解決不了如此龐大的任務量,在后編輯中居高不下的人力和時間成本限制了機器翻譯的發展和應用。
研究者們通過對用戶編輯模式和翻譯錯誤類型的分析發現,在機器翻譯的結果中,很多錯誤是重復出現的(如詞匯翻譯錯誤,句子結構類型的錯誤,詞語形式的錯誤等),如果通過人工后編輯來處理這些重復的錯誤,將消耗極大的人力和物力成本,同時也嚴重降低了機器翻譯的效率和翻譯用戶體驗的滿意度。因此很多研究者嘗試構建一個自動后編輯模型,以根據機器翻譯的錯誤類型自動得修正包含相同或類似的翻譯錯誤,以減少人工后編輯的工作量,提高機器翻譯質量。現有的主流方法大多是根據“機器譯文——專家后編輯譯文”的平行語料訓練出基于SMT(基于統計的機器翻譯)的自動后編輯模型。雖然基于統計機器翻譯的自動后編輯的研究已經取得了一定的成果;但是統計機器翻譯SMT里面具體發生了什么,還有很多是不明確的。就這一后編輯技術而言,僅能知道該方法能夠提高最終翻譯結果質量,但是不知道具體哪些后編輯操作是有效的(即那部分后編輯操作代表了機器翻譯系統的缺陷),這不利于直觀的分析機器翻譯的弊端。在這些情況下如果能通過自動學習的方式解析出機器翻譯的重復錯誤的相關模式,并且將這些模式化的錯誤自動更正;可以分析出機器翻譯的錯誤根源,有助于從源頭上提高機器翻譯的質量。
此外機器翻譯的錯誤一般分為兩類,第一、譯詞錯誤,翻譯中譯詞錯誤是基本的錯誤之一,據統計,譯詞錯誤(包括詞語丟失、多余詞語、詞語錯誤、譯詞不一致等情況)可以占到機器翻譯總錯誤的60%以上;第二、語序錯誤,譯文詞語順序錯誤,語序語法錯誤是基本的錯誤之一,據統計,語序錯誤(包括置前語序錯誤、句內疑問詞(W)短語語序錯誤、句內be動詞/情態動詞(MD)短語語序錯誤、句內鄰居短語語序錯誤等情況)在機器翻譯總錯誤中所占據的比重很大,而且鑒于不同語言之間存在的巨大的語法差異,語序錯誤在機器翻譯中出現的機率很大,語序錯誤極大的影響了機器翻譯的專業化程度。譯詞錯誤和語序錯誤在機器翻譯錯誤中所占的比重都很大,如果單一的糾正某個錯誤對機器翻譯效果的改進是局部有限的;面對大量的翻譯需求,需要一種能夠綜合提高機器譯文質量的辦法。
發明內容
本發明的目的在于克服現有技術中所存在的上述不足,提供一種機器翻譯后編輯處理方法,通過在對機器譯文先進行譯詞錯誤修正再進行語序錯誤調整,使得機器翻譯的譯文質量顯著提高。為了實現上述目的,本發明構建了錯詞修正規則模板和調序規則模板,根據先錯詞修正后語序調整的的方法來修改機器翻譯的譯文錯誤。其中本發明中的錯詞修正規則模板包含當前詞和替換詞的相關信息,所述當前詞和替換詞的相關信息除包含對應機器譯文和標準譯文的相關信息外,還包含對應源文的相關信息。所述調序規則模板中包含第一待調序詞和第二待調序詞的相關信息,以及第一待調序詞和第二待調序詞的相關信息。
為了實現上述發明目的,本發明提供以下技術方案,一種機器翻譯后編輯處理方法,包含以下實現過程:
(1)構建錯詞修正規則模板,所述錯詞修正規則模板包括規則條件和修正動作,其中規則條件包括機器翻譯的當前詞,當前詞的前N個詞匯和當前詞的后N個詞匯,以及當前詞對應的譯文源詞的前N個詞匯和后N個詞匯,其中N為不小于1的正整數;所述修正動作為:將當前詞修正為替換詞;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于成都數聯銘品科技有限公司,未經成都數聯銘品科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201610045883.7/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:塔式抽油機
- 下一篇:OR鏈式總線的增強數據總線反轉編碼的方法和裝置





