[發(fā)明專利]多語機(jī)器翻譯智能輔助處理方法和系統(tǒng)有效
| 申請?zhí)枺?/td> | 201210410530.4 | 申請日: | 2012-10-24 |
| 公開(公告)號: | CN102968411A | 公開(公告)日: | 2013-03-13 |
| 發(fā)明(設(shè)計(jì))人: | 滕志揚(yáng);駱衛(wèi)華;劉群;熊皓 | 申請(專利權(quán))人: | 橙譯中科信息技術(shù)(北京)有限公司 |
| 主分類號: | G06F17/28 | 分類號: | G06F17/28;G06F17/27 |
| 代理公司: | 廣州華進(jìn)聯(lián)合專利商標(biāo)代理有限公司 44224 | 代理人: | 陳振 |
| 地址: | 100190 北京市海淀區(qū)中關(guān)村*** | 國省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 機(jī)器翻譯 智能 輔助 處理 方法 系統(tǒng) | ||
技術(shù)領(lǐng)域
本發(fā)明涉及自然語言計(jì)算機(jī)處理技術(shù)領(lǐng)域,尤其是涉及機(jī)器翻譯技術(shù)領(lǐng)域,特別是涉及一種多語機(jī)器翻譯智能輔助處理方法和系統(tǒng)。
背景技術(shù)
在文本翻譯的過程中,翻譯人員通常需要將一種語言(源語言)翻譯成另外一種語言(目標(biāo)語言)。
近年來,基于機(jī)器翻譯和翻譯記憶的計(jì)算機(jī)輔助翻譯解決了人工翻譯中的一些問題,但是計(jì)算機(jī)輔助翻譯通常有三個問題。第一,基于詞的輔助翻譯提示的粒度太小,部分詞語的在句子中的翻譯往往不是詞語直接對應(yīng)的目標(biāo)語言候選。第二,基于移動調(diào)序的機(jī)器翻譯后編輯形式的輔助翻譯,很費(fèi)時費(fèi)力,翻譯人員操作很不方便。第三,基于機(jī)器翻譯的以短語為粒度的候選提示,首先將所有的短語翻譯候選列出,然后讓操作人員通過選擇候選的方式的進(jìn)行后編輯,這種方式一定程度地解決了詞粒度的候選提示問題。但是,這種方式的短語候選翻譯列表不能根據(jù)翻譯人員輸入而動態(tài)改變。翻譯人員在翻譯的過程中,要進(jìn)行目標(biāo)語言的輸入。現(xiàn)有的目標(biāo)語言輸入方法通常是一種語言的音字轉(zhuǎn)換過程,從翻譯文本錄入過程的角度來看,現(xiàn)有方法主要有四個不足。第一,現(xiàn)有的方法通常直接針對目標(biāo)語言而設(shè)計(jì),沒有利用源語言的信息;第二,現(xiàn)有的方法,沒有把人工翻譯和機(jī)器翻譯交互式地結(jié)合起來;第三,現(xiàn)有的方法很少有支持翻譯的功能,翻譯的粒度不夠。第四,現(xiàn)有的方法無法結(jié)合已輸入的目標(biāo)語言上下文和翻譯人員翻譯習(xí)慣的進(jìn)行智能翻譯。
發(fā)明內(nèi)容
本發(fā)明提供了一種多語機(jī)器翻譯智能輔助處理方法和系統(tǒng),其克服現(xiàn)有技術(shù)中存在的不足,加快多語翻譯的速度,用戶體驗(yàn)好,智能化程度高,提高了翻譯準(zhǔn)確度。
為實(shí)現(xiàn)本發(fā)明目的而提供了一種多語機(jī)器翻譯智能輔助處理方法,包括如下步驟:
步驟S100,根據(jù)源語言和已翻譯目標(biāo)語言獲取源語言已翻譯的區(qū)間,對源語言未翻譯的區(qū)間進(jìn)行擴(kuò)展;
步驟S200,根據(jù)源語言未翻譯的區(qū)間擴(kuò)展,生成K-best提示集;并根據(jù)源語言未翻譯的區(qū)間和已翻譯的目標(biāo)語言生成輸入歷史提示集和語言模型提示集;
步驟S300,結(jié)合輸入歷史提示集、語言模型提示集、以及K-best提示集,生成所述源語言未翻譯源區(qū)間對應(yīng)的目標(biāo)語言的候選集。
較優(yōu)地,作為一可實(shí)施例,所述的多語機(jī)器翻譯智能輔助處理方法,所述步驟S300之后還包括如下步驟:
步驟S400,顯示所述目標(biāo)語言的候選集,等待用戶輸入或者選擇,并在捕捉到用戶輸入或者選擇動作后,得到未翻譯源語言翻譯對應(yīng)的目標(biāo)語言,返回到步驟S100重新進(jìn)行未翻譯源語言翻譯,直至翻譯完成。
較優(yōu)地,作為一可實(shí)施例,所述步驟S100包括如下步驟:
步驟S110,設(shè)已翻譯目標(biāo)語言集E=e1...em(m>=1),則確定一個E的劃分S:{(a,b)|1=<a<=b<=m},對于任意的一個元素(a,b)屬于S,計(jì)算確定一個源語言集對應(yīng)的區(qū)間(a',b')的集合T,得到已翻譯源語言區(qū)間集合;
步驟S120,將集合T的每一個區(qū)間序列作為一個實(shí)例采用語言模型解碼方法采用不同的短語特征對對應(yīng)的源語言未翻譯的區(qū)間進(jìn)行擴(kuò)展。
較優(yōu)地,作為一可實(shí)施例,所述步驟S200中,根據(jù)源語言未翻譯的區(qū)間擴(kuò)展,生成K-best提示集,包括如下步驟:
步驟S210,根據(jù)未翻譯的區(qū)間擴(kuò)展,獲取源語言未翻譯的區(qū)間對應(yīng)的翻譯結(jié)果中前K個最好的結(jié)果,其中,K為大于等于0的整數(shù);
步驟S220,將前K個最好的結(jié)果作為K-best提示集中的提示的字符串,并計(jì)算所述K個K-best提示集中的提示的字符串對應(yīng)的概率,將提示的類型設(shè)置為2,生成K-best提示集。
較優(yōu)地,作為一可實(shí)施例,所述步驟S200中,根據(jù)源語言未翻譯的區(qū)間和已翻譯目標(biāo)語言,利用用戶輸入歷史集,生成輸入歷史提示集,包括如下步驟:
步驟S211’,初始化候選的輸入歷史提示集為空,根據(jù)源語言未翻譯的區(qū)間,獲得源語言未翻譯的區(qū)間中已輸入的字符串的后n個詞previous_n_word,n為整數(shù),n與所用的語言模型相對應(yīng);
步驟S212’,將源語言未翻譯的區(qū)間全切分,得到不同的源語言片段,并根據(jù)源語言片段從語言模型集中檢索獲取對應(yīng)的所有可能的候選目標(biāo)翻譯語言的短語作為源語言片段對應(yīng)的候選短語集S;
步驟S213’,根據(jù)n個詞previous_n_word和所述源語言片段對應(yīng)的候選短語集,通過最小編輯距離算法,計(jì)算相似度,相似度大于等于閾值KT的詞作為候選的源語言集合{source_word};
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于橙譯中科信息技術(shù)(北京)有限公司,未經(jīng)橙譯中科信息技術(shù)(北京)有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201210410530.4/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 同類專利
- 專利分類
G06F 電數(shù)字?jǐn)?shù)據(jù)處理
G06F17-00 特別適用于特定功能的數(shù)字計(jì)算設(shè)備或數(shù)據(jù)處理設(shè)備或數(shù)據(jù)處理方法
G06F17-10 .復(fù)雜數(shù)學(xué)運(yùn)算的
G06F17-20 .處理自然語言數(shù)據(jù)的
G06F17-30 .信息檢索;及其數(shù)據(jù)庫結(jié)構(gòu)
G06F17-40 .數(shù)據(jù)的獲取和記錄
G06F17-50 .計(jì)算機(jī)輔助設(shè)計(jì)





