[發明專利]機器翻譯方法及裝置在審
| 申請號: | 201611179640.9 | 申請日: | 2016-12-19 |
| 公開(公告)號: | CN106776586A | 公開(公告)日: | 2017-05-31 |
| 發明(設計)人: | 田亮 | 申請(專利權)人: | 新譯信息科技(深圳)有限公司 |
| 主分類號: | G06F17/28 | 分類號: | G06F17/28 |
| 代理公司: | 北京同立鈞成知識產權代理有限公司11205 | 代理人: | 楊文娟,劉芳 |
| 地址: | 518057 廣東省深圳市*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 機器翻譯 方法 裝置 | ||
1.一種機器翻譯方法,其特征在于,包括:
從第一語句中獲取第一短語集合,所述第一短語集合包括所述第一語句中連續的n元短語;
從第一語料庫中獲取第二短語集合,所述第二短語集合包括所述第一語料庫中的所有n元短語,所述第一語料庫為可比較語料庫;
通過自動對齊算法從第二短語集合中獲取第三短語集合,所述第三短語集合中的短語對所述第一短語集合中的短語的第一翻譯關系包括:一對一、一對多和/或多對多;
通過所述第一翻譯關系從所述第三短語集合中獲取第二語句,所述第二語句為所述第一語句的翻譯結果。
2.根據權利要求1所述的方法,其特征在于,所述第一語料庫包括:所述第一語句所使用的語言和所述第二語句所使用的語言互譯的網頁內容。
3.根據權利要求2所述的方法,其特征在于,所述自動對齊算法包括:
根據所述第一短語的長度信息和所述第三短語的長度信息得到歸一化長度值,所述第一短語為所述第一短語集合中的短語,所述第三短語為所述第三短語集合中的短語;
利用高斯方程或泊松分布公式、所述歸一化長度值和所述第一短語和所述第三短語的對齊類型,對所述第一短語和所述第三短語集合中的短語進行對齊,所述對齊類型包括:一個短語對一個短語對齊、一個短語對多個短語對齊和多個短語對多個短語對齊;
根據IBM模型通過最大期望EM算法過濾所述第三短語集合中的短語;
根據所述第一短語和所述第三短語的詞相似性得到所述第三短語集合。
4.根據權利要求3所述的方法,其特征在于,所述自動對齊算法包括:
根據得到所述歸一化長度,其中,所述ls為所述第一短語的長度,所述lt為所述第三短語的長度,所述r為所述第一語句所使用的語言和所述第二語句所使用的語言長度的比率,所述σ2是所述第一語句所使用的語言和所述第二語句所使用的語言的樣本方差;
根據或對所述第一短語和所述第三短語集合中的短語進行對齊,以得到所述第一短語與所述第三短語對齊的概率p(δ(ls,lt)|type)=p(|X|≥|δ(ls,lt)|)=2(1-p(X<|δ(ls,lt)|)),其中,所述μ是是所述第一語句所使用的語言和所述第二語句所使用的語言的樣本期望,所述α是常量,所述type為所述第一語句所使用的語言和所述第二語句所使用的語言的對齊類型;
根據模型,通過EM算法過濾所述第三短語集合中的短語,其中,所述s所述第一語句所使用的語言,t為所述第二語句所使用的語言,所述l為所述第一語句中包括的所述第一短語的個數,所述m為所述第三短語的個數,所述ε為常量;
根據得到所述第三短語集合,其中,(l-gram)∩(m-gram)是所述第一短語和所述第三短語中相同字符的個數,所述(l-gram)是所述第一短語的長度,所述(m-gram)是所述第三短語的長度。
5.根據權利要求4所述的方法,其特征在于,所述通過所述第一翻譯關系從所述第三短語集合中得到第二語句,包括:
根據tbest=argmaxt p(tn-best)得到第二語句,其中,所述tn-best為所述第三短語集合中的短語組合。
6.一種機器翻譯裝置,其特征在于,包括:
獲取模塊,所述獲取模塊用于從第一語句中獲取第一短語集合,所述第一短語集合包括所述第一語句中連續的n元短語;
所述獲取模塊還用于從第一語料庫中獲取第二短語集合,所述第二短語集合包括所述第一語料庫中的所有n元短語,所述第一語料庫為可比較語料庫;
對齊模塊,所述對齊模塊用于通過自動對齊算法從第二短語集合中獲取第三短語集合,所述第三短語集合中的短語對所述第一短語集合中的短語的第一翻譯關系包括:一對一、一對多和/或多對多;
組合模塊,所述組合模塊用于通過所述第一翻譯關系從所述第三短語集合中得到第二語句,所述第二語句為所述第一語句的翻譯結果。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于新譯信息科技(深圳)有限公司,未經新譯信息科技(深圳)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201611179640.9/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:即時翻譯方法及移動終端
- 下一篇:數據處理方法和裝置





