[發明專利]一種統計機器翻譯中的在線翻譯模型選擇方法有效
| 申請號: | 200710099724.6 | 申請日: | 2007-05-29 |
| 公開(公告)號: | CN101079028A | 公開(公告)日: | 2007-11-28 |
| 發明(設計)人: | 呂雅娟;劉群;黃瑾 | 申請(專利權)人: | 中國科學院計算技術研究所 |
| 主分類號: | G06F17/28 | 分類號: | G06F17/28;G06F17/30 |
| 代理公司: | 北京泛華偉業知識產權代理有限公司 | 代理人: | 高存秀 |
| 地址: | 100080北京*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 統計 機器翻譯 中的 在線翻譯 模型 選擇 方法 | ||
1、一種統計機器翻譯中候選翻譯模型生成方法,包括以下步驟:
步驟101)、收集雙語平行語料庫,根據類型,將雙語平行語料庫劃分到不同的子語料庫中,從而構建不同類型的子語料庫;其中,所述的將雙語平行語料庫劃分到不同的子語料庫中包括:劃分雙語平行語料庫時,根據雙語平行語料庫中數據的所屬領域、主題和用詞,采用分類或聚類方法將具有相似的領域、主題和用詞的雙語平行語料庫劃分到同一個子語料庫中;
步驟102)、根據所述子語料庫,訓練候選翻譯模型;其中,對每個子語料庫進行翻譯模型的訓練,得到對應的子翻譯模型;對所有的子語料庫合并進行翻譯模型的訓練,得到一個通用的翻譯模型;所有的子翻譯模型和通用翻譯模型統稱為候選翻譯模型;
步驟103)、為所述子語料庫建立索引,得到語料庫索引文件。
2、根據權利要求1所述的統計機器翻譯中候選翻譯模型生成方法,其特征在于,所述的分類或聚類方法為k均值聚類法或k近鄰分類法或最大熵分類法。
3、根據權利要求1所述的統計機器翻譯中候選翻譯模型生成方法,其特征在于,在所述的步驟103)中,所述子語料庫建立索引,是指:
子語料庫中每個翻譯句對的源語言句子建立索引,所述索引包括翻譯句對的源語言句子所在子語料庫的信息。
4、根據權利要求3所述的統計機器翻譯中候選翻譯模型生成方法,其特征在于,采用Lemur信息檢索工具建立索引。
5、一種統計機器翻譯中利用候選翻譯模型進行翻譯的方法,包括以下步驟:
步驟200)、采用權利要求1-4之一的統計機器翻譯中候選翻譯模型生成方法生成候選翻譯模型以及各個子語料庫的語料庫索引文件;
步驟201)、輸入待翻譯文本,從所述語料庫索引文件中檢索與待翻譯文本中的句子相似度最高的至少一個句子,得到檢索結果;其中,所述檢索結果中的句子稱為相似句子;
步驟202)、根據所述檢索結果,得到與相似句子所在子語料庫所對應的候選翻譯模型,從所有的候選翻譯模型中選擇最終翻譯模型;
步驟203)、根據所述最終翻譯模型對輸入的待翻譯文本進行翻譯,得到最后的翻譯結果。
6、根據權利要求5所述的統計機器翻譯中利用候選翻譯模型進行翻譯的方法,其特征在于,在所述的步驟201)中,所述從語料庫索引文件中檢索與待翻譯文本中的句子相似度最高的至少一個句子,是指:
采用相似度檢索方法計算所述的待翻譯文本與語料索引文件中所有索引文檔之間的相似度,然后根據相似度大小為所有的計算結果按從大到小依次排序,選擇相似度最高的至少一個句子,所選擇的句子包括該句子所在子語料庫的信息。
7、根據權利要求6所述的統計機器翻譯中利用候選翻譯模型進行翻譯的方法,其特征在于,所述相似度檢索方法為向量空間模型及TF-IDF相似度計算方法。
8、根據權利要求5所述的統計機器翻譯中利用候選翻譯模型進行翻譯的方法,其特征在于,在所述的步驟202)中,所述從所有的候選翻譯模型中選擇最終翻譯模型,是指:
設定選擇策略,根據選擇策略從所有的候選翻譯模型中選擇一個候選翻譯模型或幾個候選翻譯模型的組合作為所述的最終翻譯模型。
9、根據權利要求8所述的統計機器翻譯中利用候選翻譯模型進行翻譯的方法,其特征在于,所述的選擇策略為根據同一子語料庫中所包含相似句子的個數確定候選翻譯模型,或結合相似度的數值來確定候選翻譯模型。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中國科學院計算技術研究所,未經中國科學院計算技術研究所許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/200710099724.6/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:玻璃中氟離子含量的測量方法
- 下一篇:熔爐智能控制系統和方法





