[發明專利]一種拼音和漢字相結合的漢外口語自動翻譯方法有效
| 申請號: | 200910244513.6 | 申請日: | 2009-12-30 |
| 公開(公告)號: | CN101788978A | 公開(公告)日: | 2010-07-28 |
| 發明(設計)人: | 周玉;宗成慶 | 申請(專利權)人: | 中國科學院自動化研究所 |
| 主分類號: | G06F17/28 | 分類號: | G06F17/28 |
| 代理公司: | 中科專利商標代理有限責任公司 11021 | 代理人: | 梁愛榮 |
| 地址: | 100080 *** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 拼音 漢字 相結合 口語 自動 翻譯 方法 | ||
1.一種拼音和漢字相結合的漢外口語自動翻譯方法,其特征在于, 利用拼音和漢字相結合的方法進行訓練和解碼,其具體實現步驟包括:
步驟S1:對原始漢外語料的漢語部分進行字音轉化,將所有連續 漢字轉化為相應的拼音,經過將原始漢外語料的漢語部分進行字音轉 化,得到基于拼音的漢語語料并與原始外語語料重新進行對齊組合就 得到了基于拼音的漢外訓練語料;并對原始漢語語料轉化為基于漢語 單字分隔形式的語料,得到基于漢語單字分隔的漢語語料并與原始外 語語料重新進行組合就得到了基于漢字的漢外訓練語料;
步驟S2:采用Moses工具包中的GIZA++工具包對基于拼音的漢外 訓練語料進行詞對齊的訓練,得到基于拼音的詞對齊;采用Moses工 具包中的GIZA++工具包對基于漢字的漢外訓練語料進行詞對齊的訓 練,得到基于漢字的詞對齊;
步驟S3:對生成的基于拼音的詞對齊和基于漢字的詞對齊進行詞 對齊的融合是將基于拼音的詞對齊和基于漢字的詞對齊兩種詞對齊文 件直接進行疊加,疊加順序是將兩個詞對齊文件拷貝到一個新的詞對 齊文件中生成融合后的詞對齊文件,新生成的融合后的詞對齊文件的 行數為基于拼音的詞對齊或基于漢字的詞對齊文件行數的兩倍;
步驟S4:結合基于拼音的漢外訓練語料,對融合的詞對齊文件進 行學習,抽取并學習基于拼音的漢外翻譯知識,得到基于拼音的翻譯 模型;結合基于漢字的漢外訓練語料,對融合的詞對齊文件進行學習, 抽取并學習基于漢字的漢外翻譯知識,得到基于漢字的翻譯模型;
所述得到基于拼音的翻譯模型的步驟包括:步驟S41:首先將基 于拼音的漢外訓練語料分別復制一倍,以保持跟融合后的詞對齊文件 的行數及內容保持一一對應;步驟S42:利用Moses工具包進行翻譯 模型的訓練工作,對基于短語的翻譯知識抽取模塊輸入三個一一對應 文件,即雙倍復制后的基于拼音的漢語訓練語料、雙倍復制后的基于 拼音的外語訓練語料、融合后的詞對齊文件,根據這三個文件進行翻 譯知識的抽取,輸出基于拼音的翻譯模型;
所述得到基于漢字的翻譯模型的步驟包括:步驟S43:首先將基 于漢字的漢外訓練語料分別復制一倍,以保持跟融合后的詞對齊文件 的行數及內容保持一一對應;步驟S44:利用Moses工具包進行翻譯 模型的訓練工作,對基于短語的翻譯知識抽取模塊輸入三個一一對應 文件:即雙倍復制后的基于漢字的漢語訓練語料、雙倍復制后的基于 漢字的外語訓練語料、融合后的詞對齊文件,根據這三個文件進行翻 譯知識的抽取,輸出基于漢字的翻譯模型;
步驟S5:對基于拼音的漢外訓練語料中的外語部分進行學習,獲 取N元文法的概率信息,得到基于拼音的語言模型;對基于漢字的漢 外訓練語料中的外語部分進行學習,獲取N元文法的概率信息,得到 基于漢字的語言模型;采用Srilm工具作為語言模型的訓練工具,得 到基于拼音和基于漢字的語言模型;
步驟S6:利用基于拼音的語言模型和基于拼音的翻譯模型在基于 拼音的開發集上進行最小錯誤訓練,得到基于拼音的翻譯方法的各個 特征的特征權重參數;利用基于漢字的語言模型和基于漢字的翻譯模 型在基于漢字的開發集上進行最小錯誤訓練,得到基于漢字的翻譯方 法的各個特征的特征權重參數;采用Moses工具包進行最小錯誤訓練, 得到特征權重參數;
步驟S7:利用基于拼音的翻譯方法的各個特征的特征權重參數, 并結合基于拼音的語言模型和翻譯模型,將基于拼音的測試語料送入 基于拼音的解碼系統中進行解碼,輸出測試集的基于拼音的翻譯結果; 利用基于漢字的翻譯方法的各個特征的特征權重參數,并結合基于漢 字的語言模型和翻譯模型,將基于漢字的測試語料送入基于漢字的解 碼系統中進行解碼,輸出測試集的基于漢字的翻譯結果;所述解碼系 統是采用Moses工具包提供的解碼系統;
步驟S8:將生成的測試集的基于拼音的翻譯結果和生成的基于漢 字的翻譯結果送入系統融合模塊進行融合,利用打分算法來對基于拼 音和基于漢字的翻譯結果進行打分,并根據該打分來選取最優的翻譯 結果,從而得到系統融合后的測試集的翻譯結果;
所述將生成的測試集的基于拼音的翻譯結果和生成的基于漢字的 翻譯結果送入系統融合模塊進行融合的步驟包括:
步驟S81:首先利用基于拼音的解碼系統,對基于拼音的開發集 進行翻譯解碼,生成開發集的基于拼音的前N個翻譯最優結果;
步驟S82:其次利用基于漢字的解碼系統,對基于漢字的開發集 進行翻譯解碼,生成開發集的基于漢字的前N個翻譯最優結果;
步驟S83:然后利用翻譯系統的融合方法,包括句子級別的融合、 短語級別的融合和詞級別的融合方法,來對開發集的基于拼音的前N 個翻譯最優結果和基于漢字的前N個翻譯最優結果進行最小錯誤訓 練,得到融合系統中的各個特征權重和相關參數;
步驟S84:最后利用獲取的融合系統中的各個特征權重和相關參 數對測試集的基于拼音的翻譯結果和基于漢字的翻譯結果進行系統融 合得到新生成的測試集的前M個最優翻譯結果;
步驟S9:從系統融合后的測試集的翻譯結果中選擇打分最優的結 果作為最終的翻譯結果輸出。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中國科學院自動化研究所,未經中國科學院自動化研究所許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/200910244513.6/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:詞匯信息處理方法及系統
- 下一篇:低功耗無線傳輸的動態電子標簽系統





