[發(fā)明專利]一種基于謂詞論元結構的統(tǒng)計機器翻譯方法有效
| 申請?zhí)枺?/td> | 201210534093.7 | 申請日: | 2012-12-11 |
| 公開(公告)號: | CN103020045A | 公開(公告)日: | 2013-04-03 |
| 發(fā)明(設計)人: | 宗成慶;翟飛飛;張家俊;周玉 | 申請(專利權)人: | 中國科學院自動化研究所 |
| 主分類號: | G06F17/28 | 分類號: | G06F17/28;G06F17/27 |
| 代理公司: | 中科專利商標代理有限責任公司 11021 | 代理人: | 宋焰琴 |
| 地址: | 100190 *** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 謂詞 結構 統(tǒng)計 機器翻譯 方法 | ||
技術領域
本發(fā)明涉及自然語言處理技術領域,是一種新穎的基于謂詞論元結構(簡稱為PAS)的統(tǒng)計機器翻譯方法。
背景技術
當前的統(tǒng)計機器翻譯方法主要是從雙語語料庫中自動學習翻譯規(guī)則,并利用這些規(guī)則對測試語句進行翻譯的過程。統(tǒng)計機器翻譯模型經(jīng)歷了基于詞的、基于短語、以及基于句法結構的翻譯模型,翻譯質量也取得了長足的發(fā)展。然而,當前的翻譯模型最多只考慮了句子的層次結構屬性,而并沒有對句子中的語義知識進行建模。
同時,調序(reordering)一直都是機器翻譯研究中的一個既重要又困難的課題。當前的翻譯模型對于局部調序(local?reordering)進行了很好的建模。然而,對于全局調序(global?reordering),也就是把句子的整體結構考慮在內的調序,當前的機器翻譯模型并沒有非常好的解決辦法。因此,如果建立一個機器翻譯模型,能夠對句子的語義知識進行建模,同時又能夠很好地處理全局調序問題,將大大推動機器翻譯領域的發(fā)展,是一項富有挑戰(zhàn)且非常有意義的工作。
謂詞論元結構體現(xiàn)了句子中一個謂詞和它的所屬論元之間的關系。因此,它從某種程度上就指示了句子的語義屬性和主體的骨架結構。根據(jù)謂詞論元結構的特性,發(fā)現(xiàn)它不僅僅提供了機器翻譯所需要的語義知識,而且提供了一種骨架結構,可以用于在句子的骨架層面進行全局調序。同時,文獻【Pascale?Fung,Wu?Zhaojun,Yang?Yongsheng,and?Dekai?Wu.(2006).Automatic?learning?of?chinese?english?semantic?structure?mapping.InIEEE/ACL?2006?Workshop?on?Spoken?Language?Technology(SLT?2006)】和【Dekai?Wu?and?Pascale?Fung.(2009b).Semantic?roles?for?smt:A?hybridtwo-pass?model.In?Proceedings?of?Human?Language?Technologies:The?2009Annual?Conference?of?the?North?American?Chapter?of?the?Association?forComputational?Linguistics,Companion?Volume:Short?Papers】還證明了兩種語言之間的謂詞論元結構比句法結構更能保持結構上的一致性。也就是說,由于當前的基于句法結構的翻譯模型總是受到雙語句子之間句法結構差異性的限制,謂詞論元結構將是句法結構一個非常合適的替代品。
發(fā)明內容
(一)要解決的技術問題
本發(fā)明所要解決的技術問題是針對如何有效利用句子中的語義信息,并同時處理機器翻譯過程中的全局調序問題,提出了一種基于謂詞論元結構的統(tǒng)計機器翻譯方法。這種方法使得翻譯模型能夠充分使用待翻譯句子的謂詞論元結構中所攜帶的語義信息,并同時對句子在骨架層面的全局調序進行建模,以提高當前統(tǒng)計機器翻譯系統(tǒng)的性能。
(二)技術方案
為了解決上述技術問題,本發(fā)明提供一種利用句子的謂詞論元結構進行統(tǒng)計機器翻譯的方法。所述方法包括如下步驟:對所述雙語語料中的雙語句子對進行分詞、自動詞對齊、句法分析以及雙語聯(lián)合語義角色標注;根據(jù)所述雙語聯(lián)合語義角色標注的結果,抽取所述雙語句子對的PAS轉換規(guī)則,以對兩種語言的謂詞論元結構之間的對應關系進行建模;利用所述PAS轉換規(guī)則,匹配待翻譯句子的多個語義角色標注結果,并相應進行翻譯;根據(jù)所述翻譯規(guī)則的匹配和翻譯結果,構造解碼超圖,最終生成翻譯結果。
根據(jù)本發(fā)明的優(yōu)選實施例,所述抽取PAS轉換規(guī)則的具體步驟如下:
步驟1:首先利用自動詞對齊的結果對雙語聯(lián)合語義角色標注的結果進行修改,以確定雙語謂詞論元結構的對應關系;
步驟2:根據(jù)雙語謂詞論元結構的對應關系,抽取PAS轉換規(guī)則。
步驟3:根據(jù)所獲得的PAS轉換規(guī)則,對這些規(guī)則進行泛化擴展。
根據(jù)本發(fā)明的優(yōu)選實施例,在源語言的謂詞論元結構中,若存在多個論元對齊到目標語言的一個或多個論元的情況,不抽取PAS轉換規(guī)則。
根據(jù)本發(fā)明的優(yōu)選實施例,利用基于謂詞的規(guī)則翻譯概率和基于源端謂詞論元結構的規(guī)則翻譯概率來衡量PAS轉換規(guī)則的置信度。
根據(jù)本發(fā)明的優(yōu)選實施例,使用PAS轉換規(guī)則匹配待翻譯句子的多個語義角色標注結果時,只保留那些含有最多的論元或者覆蓋了最多詞匯的匹配結構。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中國科學院自動化研究所,未經(jīng)中國科學院自動化研究所許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業(yè)授權和技術合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201210534093.7/2.html,轉載請聲明來源鉆瓜專利網(wǎng)。
- 上一篇:影像亮度調整電路
- 下一篇:精制注漿竹管及其加工方法和加工用環(huán)刀
- 統(tǒng)計系統(tǒng)、統(tǒng)計裝置和統(tǒng)計方法
- 人數(shù)統(tǒng)計方法和人數(shù)統(tǒng)計系統(tǒng)
- 統(tǒng)計物體數(shù)量的統(tǒng)計系統(tǒng)
- 網(wǎng)絡處理器的統(tǒng)計計數(shù)方法
- 統(tǒng)計信息上報方法及裝置
- 稿件統(tǒng)計方法和稿件統(tǒng)計系統(tǒng)
- 數(shù)據(jù)統(tǒng)計方法及裝置
- 獲取數(shù)據(jù)的統(tǒng)計狀態(tài)的方法及裝置
- 信息統(tǒng)計方法和信息統(tǒng)計裝置
- 電量統(tǒng)計系統(tǒng)及電量統(tǒng)計方法





