[發(fā)明專利]一種機(jī)器翻譯方法無效
| 申請?zhí)枺?/td> | 201010191769.8 | 申請日: | 2010-06-04 |
| 公開(公告)號(hào): | CN102270196A | 公開(公告)日: | 2011-12-07 |
| 發(fā)明(設(shè)計(jì))人: | 張大鯤;孫樂;李文波 | 申請(專利權(quán))人: | 中國科學(xué)院軟件研究所 |
| 主分類號(hào): | G06F17/28 | 分類號(hào): | G06F17/28 |
| 代理公司: | 北京君尚知識(shí)產(chǎn)權(quán)代理事務(wù)所(普通合伙) 11200 | 代理人: | 邵可聲 |
| 地址: | 100190 *** | 國省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 機(jī)器翻譯 方法 | ||
技術(shù)領(lǐng)域
本發(fā)明屬于自然語言處理技術(shù)領(lǐng)域,具體來說,本發(fā)明涉及一種機(jī)器翻譯方法。
背景技術(shù)
在統(tǒng)計(jì)機(jī)器翻譯方法中對句子結(jié)構(gòu)的分析可以提高譯文的質(zhì)量。目前主要的對句子結(jié)構(gòu)分析的方法有兩類,一類是使用符合語言學(xué)意義的句法分析器對句子結(jié)構(gòu)進(jìn)行分析的語言學(xué)句法方法(參考K.Yamada?and?K.Knight.2001.A?Syntax-based?Statistical?Translation?Model.inProceedings?of?ACL.p.523-530.和Y.Liu,Q.Liu,and?S.Lin.2006.Tree-to-String?AlignmentTemplate?for?Statistical?Machine?Translation.in?Proceedings?of?ACL.p.609-616.),另一類是不需要明確句法分析過程的形式化句法方法(參考D.Wu,Stochastic?Inversion?TransductionGrammars?and?Bilingual?Parsing?of?Parallel?Corpora.Computational?Linguistics,1997.23(3):p.377-404.和D.Chiang,Hierarchical?phrase-based?translation.Computational?Linguistics,2007.33(2):p.201-228.)。基于語言學(xué)句法的方法首先需要利用句法分析器對句子結(jié)構(gòu)進(jìn)行分析,不管是對單語還是對雙語的分析方法,都會(huì)使模型的學(xué)習(xí)過程變得復(fù)雜,因此,在實(shí)際計(jì)算時(shí)需要增加限制條件以進(jìn)行簡化。在基于形式化句法的方法中,句法結(jié)構(gòu)直接從平行語料中學(xué)習(xí),不依賴于復(fù)雜的語言學(xué)方法進(jìn)行分析,不考慮所得到的分析結(jié)果是否符合語言學(xué)標(biāo)準(zhǔn)。因此,相比之下,形式化句法復(fù)雜度低,算法效率高。
主要的形式化句法的方法有兩種,一種是基于層次型短語的方法,另一種是基于反向轉(zhuǎn)錄語法的方法。基于層次型短語的方法從詞對齊的雙語句子中抽取帶有間隔的短語,利用對間隔的擴(kuò)展得到一棵層次型的句法分析樹,這種方法在句子結(jié)構(gòu)生成的過程中,只考慮了輸入源語言句子的信息,沒有考慮目標(biāo)語言端對翻譯時(shí)的影響。基于反向轉(zhuǎn)錄語法的方法允許兩種形式的詞語位置交換(保序和反序),每次交換的詞語個(gè)數(shù)限制為兩個(gè),因此,生成的句子結(jié)構(gòu)表示成一棵二叉樹的形式,這種方法的不足在于限制了詞語的位置交換只能在兩個(gè)節(jié)點(diǎn)之間進(jìn)行,在實(shí)際翻譯時(shí)可能出現(xiàn)過多無用的交換結(jié)構(gòu),導(dǎo)致翻譯錯(cuò)誤率過高的問題。
發(fā)明內(nèi)容
本發(fā)明的目的在于提供一種機(jī)器翻譯方法,通過本發(fā)明改進(jìn)的雙語句法樹結(jié)構(gòu)對訓(xùn)練和解碼過程進(jìn)行約束,可大大提高翻譯的性能和質(zhì)量。本發(fā)明提供的機(jī)器翻譯方法屬于形式化句法方法范疇。
為實(shí)現(xiàn)上述發(fā)明目的,本發(fā)明的技術(shù)方案為:
一種機(jī)器翻譯方法,其步驟為:
1)將詞對齊的雙語句子轉(zhuǎn)換為雙語句法樹結(jié)構(gòu);
2)在雙語句法樹的每一層抽取帶有結(jié)構(gòu)屬性的短語,計(jì)算短語翻譯概率組成短語翻譯表;
3)根據(jù)短語翻譯表,利用搜索算法對待翻譯雙語句子進(jìn)行翻譯;
其中,所述雙語句法樹的樹節(jié)點(diǎn)為互為翻譯的雙語詞對或者雙語短語對,句法樹的父節(jié)點(diǎn)的源語言端由該父節(jié)點(diǎn)所有兒子節(jié)點(diǎn)的源語言端保序組合得到、目標(biāo)語言端由該父節(jié)點(diǎn)所有兒子節(jié)點(diǎn)的目標(biāo)語言端以設(shè)定的詞語組合順序組合得到,句法樹中相鄰上下層中的節(jié)點(diǎn)在目標(biāo)語言端的組合順序相反;其中組合順序包括保序或反序。
進(jìn)一步的,所述父節(jié)點(diǎn)為雙語短語對,所述兒子節(jié)點(diǎn)為雙語詞對或雙語短語對。
進(jìn)一步的,步驟1)中的轉(zhuǎn)換方法為:
a)將訓(xùn)練數(shù)據(jù)中雙語句子的詞對齊關(guān)系表示成對齊矩陣的形式;
b)標(biāo)定整個(gè)雙語句子為當(dāng)前要處理的塊,并設(shè)置當(dāng)前塊的組合順序;所述組合順序?yàn)楸P蚧蚍葱颍?/p>
c)根據(jù)當(dāng)前塊的組合順序和詞語對齊信息,構(gòu)造當(dāng)前雙語句子的句法樹當(dāng)前層樹節(jié)點(diǎn),如果不能構(gòu)造出當(dāng)前層的樹節(jié)點(diǎn),則更改當(dāng)前塊的組合順序重新構(gòu)造當(dāng)前層樹節(jié)點(diǎn);如果保序或反序均不能構(gòu)造出當(dāng)前層的樹節(jié)點(diǎn),則將當(dāng)前塊中的雙語翻譯對作為不能繼續(xù)分解的短語節(jié)點(diǎn)添加到句法樹結(jié)構(gòu)中;
d)找出并標(biāo)定上一層中非詞語對齊的樹節(jié)點(diǎn)為當(dāng)前要處理的塊,并設(shè)置其組合順序后,重復(fù)步驟c);直到生成整個(gè)雙語句子的雙語句法樹結(jié)構(gòu)。
進(jìn)一步的,所述短語翻譯表包括:正向短語翻譯概率、反向短語翻譯概率、正向詞匯化翻譯概率、反向詞匯化翻譯概率、短語結(jié)構(gòu)概率。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于中國科學(xué)院軟件研究所,未經(jīng)中國科學(xué)院軟件研究所許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201010191769.8/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 同類專利
- 專利分類
G06F 電數(shù)字?jǐn)?shù)據(jù)處理
G06F17-00 特別適用于特定功能的數(shù)字計(jì)算設(shè)備或數(shù)據(jù)處理設(shè)備或數(shù)據(jù)處理方法
G06F17-10 .復(fù)雜數(shù)學(xué)運(yùn)算的
G06F17-20 .處理自然語言數(shù)據(jù)的
G06F17-30 .信息檢索;及其數(shù)據(jù)庫結(jié)構(gòu)
G06F17-40 .數(shù)據(jù)的獲取和記錄
G06F17-50 .計(jì)算機(jī)輔助設(shè)計(jì)
- 一種用于提高機(jī)器翻譯質(zhì)量的裝置和方法
- 機(jī)器翻譯方法和裝置
- 一種ERP術(shù)語機(jī)器翻譯方法
- 機(jī)器翻譯引擎推薦方法及裝置
- 神經(jīng)機(jī)器翻譯模型的訓(xùn)練方法、裝置及存儲(chǔ)介質(zhì)
- 基于機(jī)器翻譯引擎的翻譯方法及裝置
- 一種基于篇章的機(jī)器翻譯引擎測評優(yōu)選方法及系統(tǒng)
- 機(jī)器翻譯引擎服務(wù)恢復(fù)方法及裝置
- 一種基于預(yù)訓(xùn)練的稀缺資源神經(jīng)機(jī)器翻譯訓(xùn)練方法
- 基于混合策略的移動(dòng)設(shè)備機(jī)器翻譯系統(tǒng)
- 一種數(shù)據(jù)庫讀寫分離的方法和裝置
- 一種手機(jī)動(dòng)漫人物及背景創(chuàng)作方法
- 一種通訊綜合測試終端的測試方法
- 一種服裝用人體測量基準(zhǔn)點(diǎn)的獲取方法
- 系統(tǒng)升級方法及裝置
- 用于虛擬和接口方法調(diào)用的裝置和方法
- 線程狀態(tài)監(jiān)控方法、裝置、計(jì)算機(jī)設(shè)備和存儲(chǔ)介質(zhì)
- 一種JAVA智能卡及其虛擬機(jī)組件優(yōu)化方法
- 檢測程序中方法耗時(shí)的方法、裝置及存儲(chǔ)介質(zhì)
- 函數(shù)的執(zhí)行方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)





