[發明專利]機器翻譯方法及裝置在審
| 申請號: | 201611179640.9 | 申請日: | 2016-12-19 |
| 公開(公告)號: | CN106776586A | 公開(公告)日: | 2017-05-31 |
| 發明(設計)人: | 田亮 | 申請(專利權)人: | 新譯信息科技(深圳)有限公司 |
| 主分類號: | G06F17/28 | 分類號: | G06F17/28 |
| 代理公司: | 北京同立鈞成知識產權代理有限公司11205 | 代理人: | 楊文娟,劉芳 |
| 地址: | 518057 廣東省深圳市*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 機器翻譯 方法 裝置 | ||
技術領域
本發明涉及通信技術,尤其涉及一種機器翻譯方法及裝置。
背景技術
機器翻譯是利用計算機將一種自然語言翻譯為另一種自然目標語言的過程,用戶在互聯網上的翻譯軟件或翻譯網頁輸入待翻譯的源語言可以得到翻譯后的語言,例如:輸入漢字“中國”,得到英文翻譯“China”。
現有技術中,計算機接收到用戶輸入的待翻譯的內容后,將句子拆分為短語,通過檢索大型雙語平行語料庫中存儲的短語的翻譯結果,得到短語的翻譯結果,將短語的翻譯結果組合排序后得到翻譯的結果。
采用現有技術,機器翻譯結果依賴雙語平行語料庫的質量和規模,機器翻譯的效率不高。
發明內容
本發明提供一種機器翻譯方法及裝置,提高了機器翻譯的效率。
本發明提供一種機器翻譯方法,包括:
從第一語句中獲取第一短語集合,所述第一短語集合包括所述第一語句中連續的n元短語;
從第一語料庫中獲取第二短語集合,所述第二短語集合包括所述第一語料庫中的所有n元短語,所述第一語料庫為可比較語料庫;
通過自動對齊算法從第二短語集合中獲取第三短語集合,所述第三短語集合中的短語對所述第一短語集合中的短語的第一翻譯關系包括:一對一、一對多和/或多對多;
通過所述第一翻譯關系從所述第三短語集合中獲取第二語句,所述第二語句為所述第一語句的翻譯結果。
在本發明一實施例中,所述第一語料庫包括:所述第一語句所使用的語言和所述第二語句所使用的語言互譯的網頁內容。
在本發明一實施例中,所述自動對齊算法包括:
根據所述第一短語的長度信息和所述第三短語的長度信息得到歸一化長度值,所述第一短語為所述第一短語集合中的短語,所述第三短語為所述第三短語集合中的短語;
利用高斯方程或泊松分布公式、所述歸一化長度值和所述第一短語和所述第三短語的對齊類型,對所述第一短語和所述第三短語集合中的短語進行對齊,所述對齊類型包括:一個短語對一個短語對齊、一個短語對多個短語對齊和多個短語對多個短語對齊;
根據IBM模型通過最大期望EM算法過濾所述第三短語集合中的短語;
根據所述第一短語和所述第三短語的詞相似性得到所述第三短語集合。
在本發明一實施例中,所述自動對齊算法包括:
根據得到所述歸一化長度,其中,所述ls為所述第一短語的長度,所述lt為所述第三短語的長度,所述r為所述第一語句所使用的語言和所述第二語句所使用的語言長度的比率,所述σ2是所述第一語句所使用的語言和所述第二語句所使用的語言的樣本方差;
根據或對所述第一短語和所述第三短語集合中的短語進行對齊,以得到所述第一短語與所述第三短語對齊的概率p(δ(ls,lt)|type)=p(|X|≥|δ(ls,lt)|)=2(1-p(X<|δ(ls,lt)|)),其中,所述μ是是所述第一語句所使用的語言和所述第二語句所使用的語言的樣本期望,所述α是常量,所述type為所述第一語句所使用的語言和所述第二語句所使用的語言的對齊類型;
根據模型,通過EM算法過濾所述第三短語集合中的短語,其中,所述s所述第一語句所使用的語言,t為所述第二語句所使用的語言,所述l為所述第一語句中包括的所述第一短語的個數,所述m為所述第三短語的個數,所述ε為常量;
根據得到所述第三短語集合,其中,(l-gram)∩(m-gram)是所述第一短語和所述第三短語中相同字符的個數,所述(l-gram)是所述第一短語的長度,所述(m-gram)是所述第三短語的長度。
在本發明一實施例中,所述通過所述第一翻譯關系從所述第三短語集合中得到第二語句,包括:
根據tbest=arg maxtp(tn-best)得到第二語句,其中,所述tn-best為所述第三短語集合中的短語組合。
本發明提供一種機器翻譯裝置,包括:
獲取模塊,所述獲取模塊用于從第一語句中獲取第一短語集合,所述第一短語集合包括所述第一語句中連續的n元短語;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于新譯信息科技(深圳)有限公司,未經新譯信息科技(深圳)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201611179640.9/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:即時翻譯方法及移動終端
- 下一篇:數據處理方法和裝置





