[發明專利]一種多語言智能預處理實時統計機器翻譯系統有效
| 申請號: | 201710203439.8 | 申請日: | 2017-03-30 |
| 公開(公告)號: | CN107066455B | 公開(公告)日: | 2020-07-28 |
| 發明(設計)人: | 張昱琪;唐亮 | 申請(專利權)人: | 唐亮 |
| 主分類號: | G06F40/45 | 分類號: | G06F40/45;G06F40/55;G06F40/58 |
| 代理公司: | 北京紐樂康知識產權代理事務所(普通合伙) 11210 | 代理人: | 鄺溯瓊 |
| 地址: | 100010 北京市朝陽區北*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 語言 智能 預處理 實時 統計 機器翻譯 系統 | ||
本發明公開了一種多語言智能預處理實時統計機器翻譯系統,包括:接收模塊、預處理模塊、機器翻譯模塊和后處理模塊。所述接收模塊包括文本語言接收模塊和語音識別結果接收模塊;所述預處理模塊包括文本預處理模塊和語音識別結果預處理模塊;機器翻譯模塊,所述機器翻譯模塊用于學習短語對短語的翻譯,并對經過預處理模塊處理的短語找出對應的翻譯短語,以及把短語連接成完整的句子;后處理模塊,所述后處理模塊用于對翻譯結果做單詞標點規范化、大小寫規范化和格式規范化處理,使其更加接近目標語言的表達習慣,并作為最終結果輸出。本發明能夠用于對文本語言和語音語言進行翻譯,且提高了對小概率詞語、短語的翻譯準確度。
技術領域
本發明涉及人工智能機器翻譯技術領域,具體來說,涉及一種多語言智能預處理實時統計機器翻譯系統。
背景技術
機器翻譯是利用計算機對人類自然語言進行自動翻譯的技術,是利用計算機把一種自然語言轉換成另一種自然語言的過程,而且兩種自然語言在意義上應該是等價的。
目前,一種比較成熟而且主流的機器翻譯方法是基于統計的方法,該方法的優點在于幾乎不需要人工撰寫翻譯規則,所有的翻譯信息都是自動地從語料中學習而獲得,因此該方法最大程度地發揮了計算機高速運算的特點,極大地降低了人工成本。
基于統計模型的機器翻譯技術從平行語料庫中學習從一種語言A到另一種語言B的短語翻譯。在翻譯新的句子時,把輸入語言A的句子分解成若干短語,根據學習來的短語(A語言)-短語(B語言)的共現概率,把語言A的句子翻譯成語言B的句子。整個學習、翻譯過程完全根據統計模型。
但是,這種根據共現頻度,概率方法的機器翻譯對于小概率短語(例如專有名詞翻譯)處理能力不足, 另外,如何在統計模型中加入語法語義的表達,使得生成的翻譯句子更加符合人的表達習慣,也是目前機器翻譯技術需要解決的問題。
發明內容
針對相關技術中的上述技術問題,本發明提出一種多語言智能預處理實時統計機器翻譯系統,能夠克服現有技術的上述不足。
為實現上述技術目的,本發明的技術方案是這樣實現的:
一種多語言智能預處理實時統計機器翻譯系統,包括:
接收模塊,所述接收模塊用于對系統輸入的規范性進行檢查,所述接收模塊包括文本語言接收模塊和語音識別結果接收模塊;其中文本語言接收模塊用于對文本語言進行句子分割和格式轉換,語音識別結果接收模塊用于對語音進行分割、噪音消除和格式轉換;
預處理模塊,所述預處理模塊包括文本預處理模塊和語音識別結果預處理模塊,所述文本預處理模塊用于對文本輸入的語言進行單詞規范化操作、類別識別標注及語塊語序調整;所述語音識別結果預處理模塊用于對語音進行單詞規范化操作和標點預測;
機器翻譯模塊,所述機器翻譯模塊用于學習短語對短語的翻譯,并對經過預處理模塊處理的短語找出對應的翻譯短語,以及生成完整的句子;
后處理模塊,所述后處理模塊用于對翻譯結果做單詞標點規范化、大小寫規范化和格式規范化處理,使其更加接近目標語言的表達習慣,并作為最終結果輸出。
進一步的,所述文本語言接收模塊包括句子分割模塊和格式轉換模塊,所述句子分割模塊用于把輸入文本在標點符號處斷開,使得后續機器翻譯模塊翻譯的基本單元為一句話;所述格式轉換模塊用于把語言文本的不同格式轉換為機器翻譯模塊翻譯時支持格式。
優選的,所述機器翻譯模塊翻譯時支持格式是純文本格式或XML格式。
進一步的,所述語音識別結果接收模塊包括句子分割模塊和噪音消除模塊,所述句子分割模塊用于對輸入的語音文本流根據詞與詞之間的停頓斷句;所述噪音消除模塊用于清除掉輸入中口語話文本流中相鄰重復的片段。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于唐亮,未經唐亮許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710203439.8/2.html,轉載請聲明來源鉆瓜專利網。





