[發(fā)明專利]一種多語言智能預(yù)處理實時統(tǒng)計機(jī)器翻譯系統(tǒng)有效
| 申請?zhí)枺?/td> | 201710203439.8 | 申請日: | 2017-03-30 |
| 公開(公告)號: | CN107066455B | 公開(公告)日: | 2020-07-28 |
| 發(fā)明(設(shè)計)人: | 張昱琪;唐亮 | 申請(專利權(quán))人: | 唐亮 |
| 主分類號: | G06F40/45 | 分類號: | G06F40/45;G06F40/55;G06F40/58 |
| 代理公司: | 北京紐樂康知識產(chǎn)權(quán)代理事務(wù)所(普通合伙) 11210 | 代理人: | 鄺溯瓊 |
| 地址: | 100010 北京市朝陽區(qū)北*** | 國省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 語言 智能 預(yù)處理 實時 統(tǒng)計 機(jī)器翻譯 系統(tǒng) | ||
1.一種多語言智能預(yù)處理實時統(tǒng)計機(jī)器翻譯系統(tǒng),其特征在于,包括:
接收模塊,所述接收模塊用于對系統(tǒng)輸入的規(guī)范性進(jìn)行檢查,所述接收模塊包括文本語言接收模塊和語音識別結(jié)果接收模塊;其中文本語言接收模塊用于對文本語言進(jìn)行句子分割和格式轉(zhuǎn)換,語音識別結(jié)果接收模塊用于對語音進(jìn)行分割、噪音消除和格式轉(zhuǎn)換;
預(yù)處理模塊,所述預(yù)處理模塊包括文本預(yù)處理模塊和語音識別結(jié)果預(yù)處理模塊,所述文本預(yù)處理模塊用于對文本輸入的語言進(jìn)行單詞規(guī)范化操作、類別識別標(biāo)注及語塊語序調(diào)整,所述文本預(yù)處理模塊包括單詞規(guī)范化模塊、類別識別標(biāo)注模塊和語塊語序調(diào)整模塊,所述單詞規(guī)范化模塊用于使待翻譯語言在詞語層面上更加接近目標(biāo)語言;所述類別識別標(biāo)注模塊用于對待翻譯語言文本中的數(shù)字、日期、時間、URL分別標(biāo)注為$number, $date, $hour和$www,并預(yù)先將類別中的內(nèi)容翻譯成目標(biāo)語言;所述語塊語序調(diào)整模塊用于對待翻譯語言的句子進(jìn)行語法分析,然后依據(jù)自動學(xué)習(xí)的規(guī)則對待翻譯語言的語塊順序進(jìn)行調(diào)整,使得待翻譯語言的語序更加接近目標(biāo)語言的語序;所述語音識別結(jié)果預(yù)處理模塊用于對語音進(jìn)行單詞規(guī)范化操作和標(biāo)點預(yù)測;
機(jī)器翻譯模塊,所述機(jī)器翻譯模塊用于學(xué)習(xí)短語對短語的翻譯,并對經(jīng)過預(yù)處理模塊處理的短語找出對應(yīng)的翻譯短語,以及把短語連接成完整的句子;
后處理模塊,所述后處理模塊用于對翻譯結(jié)果做單詞標(biāo)點規(guī)范化、大小寫規(guī)范化和格式規(guī)范化處理,使其更加接近目標(biāo)語言的表達(dá)習(xí)慣,并作為最終結(jié)果輸出。
2.根據(jù)權(quán)利要求1所述的一種多語言智能預(yù)處理實時統(tǒng)計機(jī)器翻譯系統(tǒng),其特征在于,所述文本語言接收模塊包括句子分割模塊和格式轉(zhuǎn)換模塊,所述句子分割模塊用于把輸入文本在標(biāo)點符號處斷開,使得后續(xù)機(jī)器翻譯模塊翻譯的基本單元為一句話;所述格式轉(zhuǎn)換模塊用于把語言文本的不同格式轉(zhuǎn)換為機(jī)器翻譯模塊翻譯時支持格式。
3.根據(jù)權(quán)利要求2所述的一種多語言智能預(yù)處理實時統(tǒng)計機(jī)器翻譯系統(tǒng),其特征在于,所述機(jī)器翻譯模塊翻譯時支持格式是純文本格式或XML格式。
4.根據(jù)權(quán)利要求1所述的一種多語言智能預(yù)處理實時統(tǒng)計機(jī)器翻譯系統(tǒng),其特征在于,所述語音識別結(jié)果接收模塊包括句子分割模塊和噪音消除模塊,所述句子分割模塊用于對輸入的語音文本流根據(jù)詞與詞之間的停頓斷句;所述噪音消除模塊用于清除掉輸入中口語話文本流中相鄰重復(fù)的片段。
5.根據(jù)權(quán)利要求1所述的一種多語言智能預(yù)處理實時統(tǒng)計機(jī)器翻譯系統(tǒng),其特征在于,所述的語音識別結(jié)果預(yù)處理模塊包括單詞規(guī)范化模塊和標(biāo)點預(yù)測模塊,所述單詞規(guī)范化模塊用于使待翻譯語言中的詞語顆粒更加接近目標(biāo)語言的詞語;所述標(biāo)點預(yù)測模塊用于根據(jù)上下文和詞語間的停頓判斷語音識別輸出中句號的位置,所述的語音識別結(jié)果預(yù)處理模塊對于語音識別結(jié)果可接收的模式為純文本和混淆網(wǎng)絡(luò)。
6.根據(jù)權(quán)利要求1所述的一種多語言智能預(yù)處理實時統(tǒng)計機(jī)器翻譯系統(tǒng),其特征在于,所述機(jī)器翻譯模塊包括訓(xùn)練模塊和翻譯模塊,所述的訓(xùn)練模塊利用GIZA++工具包在大規(guī)模平衡語料庫中學(xué)習(xí)短語對短語的翻譯;所述翻譯模塊用于對每個輸入進(jìn)來的句子,分割成短語片段,對每個短語片段根據(jù)訓(xùn)練模塊的訓(xùn)練結(jié)果進(jìn)行翻譯,所述翻譯模塊的翻譯過程是一個搜索過程,即從每一個翻譯子模型的翻譯結(jié)果組成的翻譯組合中找出最優(yōu)的翻譯組合,所述最優(yōu)的翻譯組合即為最終的翻譯結(jié)果。
7.根據(jù)權(quán)利要求6所述的一種多語言智能預(yù)處理實時統(tǒng)計機(jī)器翻譯系統(tǒng),其特征在于,所述的翻譯子模型包括短語翻譯模型,語言模型,語序改變模型,基于詞性的語言模型,雙語語言模型和領(lǐng)域自適應(yīng)模型。
8.根據(jù)權(quán)利要求1所述的一種多語言智能預(yù)處理實時統(tǒng)計機(jī)器翻譯系統(tǒng),其特征在于,所述的后處理模塊包括單詞標(biāo)點規(guī)范化模塊、大小寫轉(zhuǎn)換模塊和格式轉(zhuǎn)換模塊,所述單詞標(biāo)點規(guī)范化模塊用于把機(jī)器翻譯結(jié)果中的單詞和標(biāo)點規(guī)范化為目標(biāo)語言的表現(xiàn)形式;所述大小寫轉(zhuǎn)換模塊用于以西語作為目標(biāo)語言的翻譯;格式轉(zhuǎn)換模塊用于將翻譯的目標(biāo)語言的格式與待翻譯語言的格式一致。
9.根據(jù)權(quán)利要求8所述的一種多語言智能預(yù)處理實時統(tǒng)計機(jī)器翻譯系統(tǒng),其特征在于,所述大小寫轉(zhuǎn)換模塊用于將目標(biāo)語言中的首字母和專有名詞的字母改為大寫形式。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于唐亮,未經(jīng)唐亮許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710203439.8/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 電鍍預(yù)處理溶液和電鍍預(yù)處理方法
- 鐵水預(yù)處理方法及其預(yù)處理裝置
- 預(yù)處理裝置及其預(yù)處理方法
- 預(yù)處理組件、使用該預(yù)處理組件進(jìn)行試樣的預(yù)處理的預(yù)處理裝置及包括該預(yù)處理裝置的分析系統(tǒng)
- 待測樣品預(yù)處理裝置、預(yù)處理筒及預(yù)處理方法
- 醋酸纖維卷曲預(yù)處理裝置、預(yù)處理液及預(yù)處理方法
- 預(yù)處理裝置
- 預(yù)處理濾芯
- 甘薯儲藏預(yù)處理設(shè)備及預(yù)處理方法
- 水樣預(yù)處理裝置、水樣預(yù)處理系統(tǒng)及水樣預(yù)處理方法





