[發明專利]短語劃分模型建立方法、統計機器翻譯方法以及解碼器有效
| 申請號: | 201010124870.1 | 申請日: | 2010-03-12 |
| 公開(公告)號: | CN102193912A | 公開(公告)日: | 2011-09-21 |
| 發明(設計)人: | 何中軍;孟遙;于浩 | 申請(專利權)人: | 富士通株式會社 |
| 主分類號: | G06F17/28 | 分類號: | G06F17/28;G06F17/27 |
| 代理公司: | 北京集佳知識產權代理有限公司 11227 | 代理人: | 康建峰;苗迎華 |
| 地址: | 日本神*** | 國省代碼: | 日本;JP |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 短語 劃分 模型 建立 方法 統計 機器翻譯 以及 解碼器 | ||
1.一種基于最大熵模型的短語劃分模型建立方法,包括:
從雙語語料庫中獲取訓練樣本;
將所獲取的訓練樣本輸入到最大熵模型的參數訓練工具中進行參數訓練,得到最大熵模型的權重參數;以及
將所述權重參數代入最大熵模型中,生成所述短語劃分模型。
2.如權利要求1所述的方法,其中,所述獲取訓練樣本的步驟包括:
針對所述雙語語料庫中的每個雙語句對中的源語言句子或目標語言句子執行以下步驟:
對所述句子進行短語劃分;
為所劃分出的短語中的每個詞標注邊界標簽,所述邊界標簽指示該詞是所述短語的開始、中間、結束部分還是所述短語本身;以及
確定所述句子中的每個詞的上下文特征的值,
其中所述句子中的每個詞及其邊界標簽、上下文特征值組成一個訓練樣本。
3.如權利要求2所述的方法,其中所述短語劃分步驟包括:
將所述句子劃分為多個最大單調短語,
其中如果源語言短語中的詞的順序與目標語言短語中的對應詞的順序一致,則所述源語言短語和所述目標語言短語均稱為單調短語,并且
如果通過所述單調短語在其所在的句子中的擴展所生成的任何新短語都不是單調短語,則所述單調短語是最大單調短語。
4.如權利要求2所述的方法,其中所述上下文特征包括上下文單詞特征和上下文詞性特征中的至少一種。
5.一種統計機器翻譯方法,用于將輸入的源語言句子翻譯成目標語言句子,所述方法包括:
通過查詢翻譯規則表來獲得用于翻譯所述源語言句子的規則;
組合所述規則以得到中間翻譯結果;以及
利用統計機器翻譯模型來從多個中間翻譯結果中確定目標語言句子,
其中,所述方法還包括:
將短語劃分模型作為一種特征函數結合到統計機器翻譯模型中,
其中所述短語劃分模型是根據權利要求1-4中任意一項所述的方法建立的短語劃分模型。
6.如權利要求5所述的方法,其中,所述結合步驟包括:
對于用于翻譯所述源語言句子的每個規則,為所述規則中的每個源語言詞標注初始邊界標簽;
在組合所述規則之后,更新所述中間翻譯結果中的源語言詞的邊界標簽,以保證所述邊界標簽所形成的標簽序列的合理性;以及
基于所述短語劃分模型和所述中間翻譯結果中的源語言詞的邊界標簽來計算對應于所述中間翻譯結果的短語劃分分數,作為所述統計機器翻譯模型的特征函數值。
7.如權利要求6所述的方法,其中所述結合步驟還包括:
在標注初始邊界標簽的步驟之前,對所述輸入的源語言句子中的每個詞,利用所述短語劃分模型來計算它對應于每種邊界標簽的概率以形成單詞-標簽矩陣;以及
在組合所述規則的步驟之前,基于所述初始邊界標簽和所述單詞-標簽矩陣來計算每個規則的短語劃分分數,并且
其中,所述計算對應于所述中間翻譯結果的短語劃分分數的步驟包括:
合計每個規則的短語劃分分數以及所述邊界標簽更新所導致的短語劃分分數變化量,以得到所述翻譯結果所對應的短語劃分分數。
8.一種解碼器,用于將輸入的源語言句子翻譯成目標語言句子,所述解碼器包括:
解碼單元,配置用于通過查詢翻譯規則表來獲得用于翻譯所述源語言句子的規則;組合所述規則以得到中間翻譯結果;以及利用統計機器翻譯模型來從多個中間翻譯結果中確定目標語言句子;以及
短語劃分模型單元,配置用于將短語劃分模型作為一種特征函數結合到統計機器翻譯模型中,
其中所述短語劃分模型是根據權利要求1-4中任意一項所述的方法建立的短語劃分模型。
9.如權利要求8所述的解碼器,其中所述短語劃分模型單元包括:
邊界標簽標注單元,配置用于對于用于翻譯所述源語言句子的每個規則,為所述規則中的每個源語言詞標注初始邊界標簽;以及更新所述解碼單元得到的所述中間翻譯結果中的源語言詞的邊界標簽,以保證所述邊界標簽所形成的標簽序列的合理性;以及
短語劃分分數計算單元,配置用于基于所述短語劃分模型和所述中間翻譯結果中的源語言詞的邊界標簽來計算對應于所述中間翻譯結果的短語劃分分數,作為所述統計機器翻譯模型的特征函數值。
10.如權利要求9所述的解碼器,其中:
所述邊界標簽標注單元進一步配置用于對所述輸入的源語言句子中的每個詞,利用所述短語劃分模型來計算它對應于每種邊界標簽的概率以形成單詞-標簽矩陣;并且
所述短語劃分分數計算單元進一步配置用于基于所述初始邊界標簽和所述單詞-標簽矩陣來計算每個規則的短語劃分分數;以及合計每個規則的短語劃分分數以及所述邊界標簽更新所導致的短語劃分分數變化量,以得到所述翻譯結果所對應的短語劃分分數。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于富士通株式會社,未經富士通株式會社許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201010124870.1/1.html,轉載請聲明來源鉆瓜專利網。





