[發明專利]一種統計機器翻譯中的在線翻譯模型選擇方法有效

申請號：	200710099724.6	申請日：	2007-05-29
公開（公告）號：	CN101079028A	公開（公告）日：	2007-11-28
發明（設計）人：	呂雅娟;劉群;黃瑾	申請（專利權）人：	中國科學院計算技術研究所
主分類號：	G06F17/28	分類號：	G06F17/28;G06F17/30
代理公司：	北京泛華偉業知識產權代理有限公司	代理人：	高存秀
地址：	100080北京***	國省代碼：	北京;11
權利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關鍵詞：	一種統計機器翻譯中的在線翻譯模型選擇方法
鉆瓜網技術展會專利詞庫專利權人專利榜在售專利公布日期熱門專利

【權利要求書】：

1、一種統計機器翻譯中候選翻譯模型生成方法，包括以下步驟：

步驟101)、收集雙語平行語料庫，根據類型，將雙語平行語料庫劃分到不同的子語料庫中，從而構建不同類型的子語料庫；其中，所述的將雙語平行語料庫劃分到不同的子語料庫中包括：劃分雙語平行語料庫時，根據雙語平行語料庫中數據的所屬領域、主題和用詞，采用分類或聚類方法將具有相似的領域、主題和用詞的雙語平行語料庫劃分到同一個子語料庫中；

步驟102)、根據所述子語料庫，訓練候選翻譯模型；其中，對每個子語料庫進行翻譯模型的訓練，得到對應的子翻譯模型；對所有的子語料庫合并進行翻譯模型的訓練，得到一個通用的翻譯模型；所有的子翻譯模型和通用翻譯模型統稱為候選翻譯模型；

步驟103)、為所述子語料庫建立索引，得到語料庫索引文件。

2、根據權利要求1所述的統計機器翻譯中候選翻譯模型生成方法，其特征在于，所述的分類或聚類方法為k均值聚類法或k近鄰分類法或最大熵分類法。

3、根據權利要求1所述的統計機器翻譯中候選翻譯模型生成方法，其特征在于，在所述的步驟103)中，所述子語料庫建立索引，是指：

子語料庫中每個翻譯句對的源語言句子建立索引，所述索引包括翻譯句對的源語言句子所在子語料庫的信息。

4、根據權利要求3所述的統計機器翻譯中候選翻譯模型生成方法，其特征在于，采用Lemur信息檢索工具建立索引。

5、一種統計機器翻譯中利用候選翻譯模型進行翻譯的方法，包括以下步驟：

步驟200)、采用權利要求1-4之一的統計機器翻譯中候選翻譯模型生成方法生成候選翻譯模型以及各個子語料庫的語料庫索引文件；

步驟201)、輸入待翻譯文本，從所述語料庫索引文件中檢索與待翻譯文本中的句子相似度最高的至少一個句子，得到檢索結果；其中，所述檢索結果中的句子稱為相似句子；

步驟202)、根據所述檢索結果，得到與相似句子所在子語料庫所對應的候選翻譯模型，從所有的候選翻譯模型中選擇最終翻譯模型；

步驟203)、根據所述最終翻譯模型對輸入的待翻譯文本進行翻譯，得到最后的翻譯結果。

6、根據權利要求5所述的統計機器翻譯中利用候選翻譯模型進行翻譯的方法，其特征在于，在所述的步驟201)中，所述從語料庫索引文件中檢索與待翻譯文本中的句子相似度最高的至少一個句子，是指：