[發(fā)明專利]組合句法轉(zhuǎn)換模型與詞匯轉(zhuǎn)換模型的機(jī)器翻譯裝置和機(jī)器翻譯方法在審
| 申請?zhí)枺?/td> | 201180053404.1 | 申請日: | 2011-07-20 |
| 公開(公告)號: | CN103189860A | 公開(公告)日: | 2013-07-03 |
| 發(fā)明(設(shè)計)人: | 黃永淑;金尚范;尹昌浩;李娟修;李承昱;林海彰 | 申請(專利權(quán))人: | SK普蘭尼特有限公司 |
| 主分類號: | G06F17/28 | 分類號: | G06F17/28 |
| 代理公司: | 北京三友知識產(chǎn)權(quán)代理有限公司 11127 | 代理人: | 呂俊剛;劉久亮 |
| 地址: | 韓國*** | 國省代碼: | 韓國;KR |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 組合 句法 轉(zhuǎn)換 模型 詞匯 機(jī)器翻譯 裝置 方法 | ||
技術(shù)領(lǐng)域
本發(fā)明涉及統(tǒng)計機(jī)器翻譯,更具體地說,涉及通過將翻譯步驟建模為句法轉(zhuǎn)換處理和詞翻譯處理這兩個步驟,并且將該模型應(yīng)用于實時輸入的源語言句子,來經(jīng)由句法轉(zhuǎn)換器與詞翻譯器的解碼處理,將句法轉(zhuǎn)換模型與詞翻譯模型組合以生成目標(biāo)語言句子的機(jī)器翻譯以及機(jī)器翻譯方法。
背景技術(shù)
自動翻譯技術(shù)指的是將一種語言自動轉(zhuǎn)換為另一種語言的軟件技術(shù)。從20世紀(jì)中期,美國出于軍事目的已經(jīng)開始研究該項技術(shù)。近來,在全世界,多個實驗室和私人公司出于擴(kuò)展信息獲取范圍以及對人機(jī)接口進(jìn)行創(chuàng)新的目的積極地研究該項技術(shù)。
在自動翻譯技術(shù)的初始階段,基于由專家手工準(zhǔn)備的雙語字典以及將一種語言轉(zhuǎn)換為另一種語言的規(guī)則,開發(fā)了自動翻譯技術(shù)。然而,從計算能力迅速發(fā)展的21世紀(jì)初期以來,從大量數(shù)據(jù)以統(tǒng)計方式自動學(xué)習(xí)翻譯算法的統(tǒng)計翻譯技術(shù)的開發(fā)取得了積極進(jìn)展。
統(tǒng)計機(jī)器翻譯(SMT)系統(tǒng)根據(jù)大量平行語料庫以統(tǒng)計方式對翻譯處理進(jìn)行建模,并且學(xué)習(xí)翻譯知識和翻譯概率以及針對目標(biāo)語言的創(chuàng)建概率,以生成最適合于基于此輸入的源句子的目標(biāo)句子。
最近的統(tǒng)計機(jī)器翻譯系統(tǒng)總體上可以分為基于短語的SMT(下文稱作PBSMT)型和基于句法(語法)的SMT(下文稱作SBSMT)型。
將連續(xù)詞串(下文稱作短語)作為一個單元進(jìn)行翻譯而不是執(zhí)行單獨的逐詞翻譯的PBSMT是一種在學(xué)習(xí)了逐個短語的翻譯知識和翻譯概率之后,在解碼期間生成具有最大概率的短語組合的方法。
最具代表性的PBSMT模型是Koehn等人(2003)以及Och和Ney(2004a)提出的模型。該模型比較簡單,并且其特征在于容易改變短距離詞序,并且自然地執(zhí)行利用多個詞表達(dá)的翻譯。然而,在該模型中,不容易改變長距離詞序,具體地說,在詞序彼此明顯不同的語言對(例如,英語-韓語翻譯)中會導(dǎo)致較大問題。原因在于,在PBSMT的翻譯模型中,僅考慮了短語之間的所有可用排列中的一些排列來確定句子中的詞序,而未明確地對語法間(intergrammer)轉(zhuǎn)換進(jìn)行建模。
因此,近年來,主要研究了一種對基于語法的句法的轉(zhuǎn)換進(jìn)行建模的方法,并且將該方法稱作SBSMT。為了學(xué)習(xí)句法轉(zhuǎn)換知識,SBSMT從平行語料庫中的與兩種語言對應(yīng)的句法樹,學(xué)習(xí)逐個樹或樹到字符串轉(zhuǎn)換知識和概率。SBSMT的特征在于,與PBSMT相比,更容易改變長距離詞序并且更容易翻譯非連續(xù)短語。然而,由于SBSMT嚴(yán)重依賴于句法分析器的性能并且翻譯知識局限于語法短語單元,所以自身要使用的翻譯知識非常少。結(jié)果,當(dāng)不存在要使用的翻譯知識時,連續(xù)詞串的翻譯變?yōu)椴慌c連接詞(linked?word)匹配的簡單的逐詞翻譯或不自然的翻譯。代表性的方法包括Galley等人(2004、2006)、Lavie等人(2008)、Yamada和Knight、Gildea等人提出的方法等。
與此相似,在現(xiàn)有技術(shù)中的統(tǒng)計機(jī)器翻譯技術(shù)中,PBSMT型改進(jìn)了連續(xù)詞翻譯的流暢性,但是未能改變長距離詞序,從而生成完全不同的句子。在SBSMT型中,生成的目標(biāo)句子的詞序是正確的,但是由于翻譯知識的缺乏而執(zhí)行簡單的逐詞翻譯,結(jié)果,翻譯是不自然的。
發(fā)明內(nèi)容
技術(shù)問題
本發(fā)明致力于解決該問題,本發(fā)明的目的在于提供一種機(jī)器翻譯裝置和機(jī)器翻譯方法,該機(jī)器翻譯裝置和機(jī)器翻譯方法通過從平行語料庫提取句法轉(zhuǎn)換知識和詞翻譯知識來在提取相應(yīng)轉(zhuǎn)換概率的同時,從單語料庫獲取針對目標(biāo)語言的創(chuàng)建概率;通過利用翻譯模型學(xué)習(xí)裝置使得能夠?qū)W習(xí)各個轉(zhuǎn)換知識和各個概率,來對加權(quán)的翻譯模型進(jìn)行建模;以及通過將翻譯模型應(yīng)用于實時輸入的源句子,來經(jīng)由句法轉(zhuǎn)換器和詞翻譯器的解碼處理生成目標(biāo)句子,從而解決現(xiàn)有的基于短語的SMT和基于句法的SMT的缺點并組合這些SMT的優(yōu)點。
技術(shù)方案
根據(jù)本發(fā)明的第一方面,一種統(tǒng)計機(jī)器翻譯裝置包括:翻譯模型構(gòu)造器,該翻譯模型構(gòu)造器利用多個平行語料庫中的源句子與目標(biāo)句子之間的詞重新排序信息和源句子的句法分析信息來提取目標(biāo)句子的句法轉(zhuǎn)換知識和詞翻譯知識,并且針對相應(yīng)的提取的知識計算轉(zhuǎn)換概率;翻譯模型學(xué)習(xí)裝置,該翻譯模型學(xué)習(xí)裝置通過學(xué)習(xí)經(jīng)由翻譯模型構(gòu)造器提取的相應(yīng)翻譯知識和轉(zhuǎn)換概率,來生成句法轉(zhuǎn)換模型和詞翻譯模型;以及翻譯句子(translated?sentence)生成器,該翻譯句子生成器通過針對實時輸入的源句子應(yīng)用經(jīng)由翻譯模型學(xué)習(xí)裝置學(xué)習(xí)的句法轉(zhuǎn)換模型和詞翻譯模型,將源句子解碼為目標(biāo)句子。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于SK普蘭尼特有限公司,未經(jīng)SK普蘭尼特有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201180053404.1/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 圖像轉(zhuǎn)換設(shè)備、圖像轉(zhuǎn)換電路及圖像轉(zhuǎn)換方法
- 數(shù)模轉(zhuǎn)換電路及轉(zhuǎn)換方法
- 轉(zhuǎn)換設(shè)備和轉(zhuǎn)換方法
- 占空比轉(zhuǎn)換電路及轉(zhuǎn)換方法
- 通信轉(zhuǎn)換方法、轉(zhuǎn)換裝置及轉(zhuǎn)換系統(tǒng)
- 模數(shù)轉(zhuǎn)換和模數(shù)轉(zhuǎn)換方法
- 轉(zhuǎn)換模塊以及轉(zhuǎn)換電路
- 熱電轉(zhuǎn)換材料、熱電轉(zhuǎn)換元件和熱電轉(zhuǎn)換模塊
- 熱電轉(zhuǎn)換材料、熱電轉(zhuǎn)換元件及熱電轉(zhuǎn)換模塊
- 熱電轉(zhuǎn)換材料、熱電轉(zhuǎn)換元件及熱電轉(zhuǎn)換模塊





