[發(fā)明專利]機(jī)器翻譯評價方法和設(shè)備及機(jī)器翻譯方法和設(shè)備在審
| 申請?zhí)枺?/td> | 201510824703.0 | 申請日: | 2015-11-24 |
| 公開(公告)號: | CN106776583A | 公開(公告)日: | 2017-05-31 |
| 發(fā)明(設(shè)計(jì))人: | 王曉利;張永生 | 申請(專利權(quán))人: | 株式會社NTT都科摩 |
| 主分類號: | G06F17/28 | 分類號: | G06F17/28 |
| 代理公司: | 北京市柳沈律師事務(wù)所11105 | 代理人: | 胡琪 |
| 地址: | 日本*** | 國省代碼: | 暫無信息 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 機(jī)器翻譯 評價 方法 設(shè)備 | ||
技術(shù)領(lǐng)域
本公開總體涉及機(jī)器翻譯,具體涉及用于跨語言問答系統(tǒng)的機(jī)器翻譯評價方法和設(shè)備以及機(jī)器翻譯方法和設(shè)備。
背景技術(shù)
跨語言問答系統(tǒng)(Cross-language question answering system)是跨語言信息檢索技術(shù)在自動問答系統(tǒng)中運(yùn)用的產(chǎn)物,比起單語種的自動問答系統(tǒng),跨語言問答系統(tǒng)需要涉及更為復(fù)雜的跨語言、信息檢索等處理技術(shù)。其要求系統(tǒng)接收用戶以源語言表述的問題作為輸入、系統(tǒng)自動在另一語種的語料庫中找到關(guān)于這個問題的最佳答案、并將此答案以源語言的形式返回給用戶。由于系統(tǒng)接收的問題的語種與語料庫的語種不一致,因此為了進(jìn)行跨語種檢索,需要通過機(jī)器翻譯進(jìn)行語種的轉(zhuǎn)換。針對這一語種的轉(zhuǎn)換,可以采用兩種不同的思路,一種是將源語言的問題轉(zhuǎn)化(翻譯)為與語料庫相同的語言,然后使用針對語料庫的語種設(shè)計(jì)的問答系統(tǒng)來獲取答案,另一種是通過機(jī)器翻譯將整個語料庫轉(zhuǎn)化為與源語言相同的語言,然后在轉(zhuǎn)化后的語料庫中獲取答案。可以看出,無論采用哪種思路,機(jī)器翻譯的好壞對問答系統(tǒng)的性能都有著非常重要的影響。
由于上述第二種思路中需要將整個語料庫轉(zhuǎn)化為與源語言相同的語言,工作負(fù)荷很重,因此,目前本領(lǐng)域中的研究更多地集中在第一種思路上。具體的,當(dāng)前針對將源語言的問題轉(zhuǎn)化為與語料庫相同的語言的機(jī)器翻譯已經(jīng)提出了許多具體的方法。相應(yīng)的,為了確定翻譯的質(zhì)量,研究人員進(jìn)行了很多研究以期對翻譯結(jié)果進(jìn)行評價,從而選擇翻譯質(zhì)量較高的翻譯。然而,現(xiàn)有的各種翻譯評價方法在可靠性和通用性上不能令人滿意。例如,美國專利申請US2012330990公開了一種跨語言查詢建議的評價方法,其確定各個候選翻譯在目標(biāo)語言查詢?nèi)罩局械某霈F(xiàn)頻率,并選擇出現(xiàn)頻率最高的候選翻譯作為翻譯質(zhì)量最高的翻譯。然而按照方法,在候選翻譯漏譯了源語言中的某些詞時,會導(dǎo)致其在目標(biāo)語言查詢?nèi)罩局械某霈F(xiàn)頻率較高,另外,有時在某 些特定詞翻譯錯誤時也會導(dǎo)致較高的出現(xiàn)頻率,從而導(dǎo)致錯誤的翻譯評價。再比如,日本專利申請WO2013014877A1公開了一種根據(jù)源語言和目標(biāo)語言的翻譯的反向翻譯結(jié)果之間的距離來評估翻譯可靠性的方法。然而,該方法需要從源語言翻譯成目標(biāo)語言、以及從目標(biāo)語言反向翻譯成源語言的兩種翻譯模型,而且從目標(biāo)語言反向翻譯成源語言的性能也會影響評價的可靠性。
發(fā)明內(nèi)容
至少針對以上問題提出本公開。
根據(jù)本公開的一個實(shí)施例,提供了一種用于跨語言問答系統(tǒng)的機(jī)器翻譯評價方法,包括:對于源語言查詢語句和通過機(jī)器翻譯得到的對應(yīng)的目標(biāo)語言查詢語句分別進(jìn)行語義角色標(biāo)注;計(jì)算源語言查詢語句中每個被標(biāo)注的論元與目標(biāo)語言查詢語句中每個被標(biāo)注的論元的對齊概率;和基于所計(jì)算的各個對齊概率,確定所述目標(biāo)語言查詢語句的翻譯質(zhì)量。
根據(jù)本公開的另一實(shí)施例,提供了一種用于跨語言問答系統(tǒng)的機(jī)器翻譯方法,包括:接收要翻譯的第一語言的內(nèi)容,并判斷該第一語言的內(nèi)容的類型;基于所確定的類型選擇適合于該類型的多個翻譯引擎;利用所述多個翻譯引擎分別對所述第一語言的內(nèi)容進(jìn)行翻譯,得到多個第二語言的候選翻譯;對每個第二語言的候選翻譯的翻譯質(zhì)量進(jìn)行打分,并選擇得分最高的候選翻譯作為所述第一語言的內(nèi)容的翻譯。
根據(jù)本公開的另一實(shí)施例,提供了一種用于跨語言問答系統(tǒng)的機(jī)器翻譯評價設(shè)備,包括:標(biāo)注部件,配置為對于源語言查詢語句和通過機(jī)器翻譯得到的對應(yīng)的目標(biāo)語言查詢語句分別進(jìn)行語義角色標(biāo)注;對齊部件,配置為計(jì)算源語言查詢語句中每個被標(biāo)注的論元與目標(biāo)語言查詢語句中每個被標(biāo)注的論元的對齊概率;和評價部件,配置為基于所計(jì)算的各個對齊概率,確定所述目標(biāo)語言查詢語句的翻譯質(zhì)量。
根據(jù)本公開的又一實(shí)施例,提供了一種用于跨語言問答系統(tǒng)的機(jī)器翻譯設(shè)備,包括:判斷部件,配置為接收要翻譯的第一語言的內(nèi)容,并判斷該第一語言的內(nèi)容的類型;選擇部件,配置為基于所確定的類型選擇適合于該類型的多個翻譯引擎;翻譯部件,配置為利用所述多個翻譯引擎分別對所述第一語言的內(nèi)容進(jìn)行翻譯,得到多個第二語言的候選翻譯;確定部件,配置為對每個第二語言的候選翻譯的翻譯質(zhì)量進(jìn)行打分,并選擇得分最高的候選翻 譯作為所述第一語言的內(nèi)容的翻譯。
根據(jù)本公開實(shí)施例的機(jī)器翻譯評價技術(shù)提出了一種利用語義角色標(biāo)注、基于論元對齊概率的新穎的機(jī)器翻譯評價方案,通過該方法能夠提供較為準(zhǔn)確的機(jī)器翻譯評價,進(jìn)而提高跨語言問答系統(tǒng)的性能。根據(jù)本公開實(shí)施例的機(jī)器翻譯技術(shù)對于不同類型的待翻譯內(nèi)容選用適合于該類型的不同翻譯引擎,并且對于每種類型的翻譯內(nèi)容采用多個翻譯引擎進(jìn)行翻譯,從而對于各種類型的待翻譯內(nèi)容都能提供較好的翻譯結(jié)果。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于株式會社NTT都科摩,未經(jīng)株式會社NTT都科摩許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201510824703.0/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 同類專利
- 專利分類
G06F 電數(shù)字?jǐn)?shù)據(jù)處理
G06F17-00 特別適用于特定功能的數(shù)字計(jì)算設(shè)備或數(shù)據(jù)處理設(shè)備或數(shù)據(jù)處理方法
G06F17-10 .復(fù)雜數(shù)學(xué)運(yùn)算的
G06F17-20 .處理自然語言數(shù)據(jù)的
G06F17-30 .信息檢索;及其數(shù)據(jù)庫結(jié)構(gòu)
G06F17-40 .數(shù)據(jù)的獲取和記錄
G06F17-50 .計(jì)算機(jī)輔助設(shè)計(jì)
- 傳感設(shè)備、檢索設(shè)備和中繼設(shè)備
- 簽名設(shè)備、檢驗(yàn)設(shè)備、驗(yàn)證設(shè)備、加密設(shè)備及解密設(shè)備
- 色彩調(diào)整設(shè)備、顯示設(shè)備、打印設(shè)備、圖像處理設(shè)備
- 驅(qū)動設(shè)備、定影設(shè)備和成像設(shè)備
- 發(fā)送設(shè)備、中繼設(shè)備和接收設(shè)備
- 定點(diǎn)設(shè)備、接口設(shè)備和顯示設(shè)備
- 傳輸設(shè)備、DP源設(shè)備、接收設(shè)備以及DP接受設(shè)備
- 設(shè)備綁定方法、設(shè)備、終端設(shè)備以及網(wǎng)絡(luò)側(cè)設(shè)備
- 設(shè)備、主設(shè)備及從設(shè)備
- 設(shè)備向設(shè)備轉(zhuǎn)發(fā)





