[發明專利]生成單語解析模型的方法和裝置以及語言轉換裝置有效
| 申請號: | 201310491909.7 | 申請日: | 2013-10-18 |
| 公開(公告)號: | CN104572629A | 公開(公告)日: | 2015-04-29 |
| 發明(設計)人: | 付亦雯;鄭仲光;葛乃晟;孟遙;孫俊 | 申請(專利權)人: | 富士通株式會社 |
| 主分類號: | G06F17/28 | 分類號: | G06F17/28 |
| 代理公司: | 北京集佳知識產權代理有限公司 11227 | 代理人: | 王萍;王娜麗 |
| 地址: | 日本神*** | 國省代碼: | 日本;JP |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 生成 解析 模型 方法 裝置 以及 語言 轉換 | ||
技術領域
本發明涉及文字處理領域,具體涉及在不同語言轉換過程中生成單語解析模型的方法和裝置以及語言轉換裝置。
背景技術
在不同語言轉換過程中,例如,在統計機器翻譯領域中,不同語言的語序有很大差別。調序模型可以是基于位置的,也就是描述兩種語言中每個句子不同位置的短語的調序概率。調序模型也可以是基于短語本身的,例如,基于短語本身來描述在給定當前短語對條件下,其前后短語對是否互換位置。由于實際的調序模型遠非“互換位置”這么簡單,而是涉及句法知識,因而調序的效果仍然不佳。目前重定位問題還是機器翻譯中亟待解決的問題。
根據句法分析的程度,已有的預調序可以分為三種:基于詞形的預調序、基于詞塊的預調序、以及基于深層句法分析的預調序。此外,根據獲取預調序知識的方式,已有的預調序可以分為兩種:基于統計的知識獲取的預調序、以及基于專家規則的預調序。在基于統計的知識獲取的預調序中,通過預先對雙語平行語料進行統計分析,然后自動獲得調序規則。
目前基于句法分析的預調序多是分別訓練句法分析模型和調序模型,并且,句法分析模型的訓練語料在大多數情況下與訓練調序模型的不一致,造成預調序過程中句法分析誤差,并導致調序準確率下降。然而,構建統一調序與句法分析訓練語料是耗時費力的。
因此,需要一種能夠解決上述問題的技術。
發明內容
在下文中給出關于本發明的簡要概述,以便提供關于本發明的某些方面的基本理解。應當理解,這個概述并不是關于本發明的窮舉性概述。它并不是意圖確定本發明的關鍵或重要部分,也不是意圖限定本發明的范圍。其目的僅僅是以簡化的形式給出某些概念,以此作為稍后論述的更詳細描述的前序。
本發明的一個主要目的在于,提供一種生成單語解析模型的方法和裝置以及語言轉換裝置和方法。
根據本發明的一個方面,提供了一種生成單語解析模型的方法,包括:按照雙語平行語料中的以目標語言撰寫的目標語句的語序來調整雙語平行語料中的以源語言撰寫的源語句的語序;按照以下助詞在目標語句中的位置將該助詞插入調整了語序的源語句中以得到作為參考的中間語句,其中,在目標語句中存在該助詞而在源語句中沒有與該助詞對應的助詞;根據目標語言和源語言的雙語平行語料,利用源語句與目標語句之間的空對齊信息以預定策略生成用于調整源語句的語序的候選結構表示,其中,預定策略包括:以第一預定概率在候選結構表示的非端部節點處標記表示要調換候選結構表示的兩個相鄰分枝的順序的標記,以及以第二預定概率在所述候選結構表示的節點處標記表示要插入助詞的標記;根據作為參考的中間語句從所生成的候選結構表示中選擇用于生成單語解析模型的結構表示;以及對所選擇的結構表示進行建模以生成單語解析模型。
根據本發明的另一個方面,提供了一種語言轉換方法,包括:利用上述的生成單語解析模型的方法所生成的單語解析模型來生成用于調整待轉換源語句的語序的結構表示;對結構表示進行解析以生成經解析的待轉換源語句;以及將經解析的待轉換源語句轉換成目標語句。
根據本發明的再一個方面,提供了一種生成單語解析模型的裝置,包括:語序調整部,用于按照雙語平行語料中的以目標語言撰寫的目標語句的語序來調整雙語平行語料中的以源語言撰寫的源語句的語序;中間語句生成部,用于按照以下助詞在目標語句中的位置將該助詞插入調整了語序的源語句中以得到作為參考的中間語句,其中,在目標語句中存在該助詞而在源語句中沒有與該助詞對應的助詞;候選結構表示生成部,用于根據目標語言和源語言的雙語平行語料,利用源語句與目標語句之間的空對齊信息以預定策略生成用于調整源語句的語序的候選結構表示,其中,預定策略包括:以第一預定概率在候選結構表示的非端部節點處標記表示要調換候選結構表示的兩個相鄰分枝的順序的標記,以及以第二預定概率(PI)在所述候選結構表示的節點處標記表示要插入助詞的標記;結構表示選擇部,用于根據作為參考的中間語句從所生成的候選結構表示中選擇用于生成單語解析模型的結構表示;以及單語解析模型生成部,用于對所選擇的結構表示進行建模以生成單語解析模型。
根據本發明的又一個方面,提供了一種語言轉換裝置,包括:生成部,用于利用上述用于生成單語解析模型的裝置所生成的單語解析模型來生成用于調整待轉換源語句的語序的結構表示;解析部,用于對結構表示進行解析以生成解析待轉換源語句;以及轉換部,用于將解析待轉換源語句轉換成目標語句。
另外,根據本發明的又一個方面,發明的實施例還提供了用于實現上述方法的計算機程序。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于富士通株式會社;,未經富士通株式會社;許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201310491909.7/2.html,轉載請聲明來源鉆瓜專利網。





