[發(fā)明專利]一種拼音和漢字相結(jié)合的漢外口語(yǔ)自動(dòng)翻譯方法有效
| 申請(qǐng)?zhí)枺?/td> | 200910244513.6 | 申請(qǐng)日: | 2009-12-30 |
| 公開(公告)號(hào): | CN101788978A | 公開(公告)日: | 2010-07-28 |
| 發(fā)明(設(shè)計(jì))人: | 周玉;宗成慶 | 申請(qǐng)(專利權(quán))人: | 中國(guó)科學(xué)院自動(dòng)化研究所 |
| 主分類號(hào): | G06F17/28 | 分類號(hào): | G06F17/28 |
| 代理公司: | 中科專利商標(biāo)代理有限責(zé)任公司 11021 | 代理人: | 梁愛榮 |
| 地址: | 100080 *** | 國(guó)省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說(shuō)明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 拼音 漢字 相結(jié)合 口語(yǔ) 自動(dòng) 翻譯 方法 | ||
技術(shù)領(lǐng)域
本發(fā)明屬于自然語(yǔ)言處理領(lǐng)域,特別涉及口語(yǔ)機(jī)器自動(dòng)翻譯方法 和跨語(yǔ)言信息檢索方法。
背景技術(shù)
口語(yǔ)翻譯(Spoken?Language?Translation,SLT)又叫語(yǔ)音翻譯 (Speech-to-speech?Translation,SST),就是利用計(jì)算機(jī)實(shí)現(xiàn)一種 語(yǔ)言的語(yǔ)音到另一種語(yǔ)言語(yǔ)音的翻譯過(guò)程。其基本思想是讓計(jì)算機(jī)像 人一樣充當(dāng)持不同語(yǔ)言的說(shuō)話人之間翻譯的角色。由于口語(yǔ)翻譯涉及 語(yǔ)言學(xué)、計(jì)算語(yǔ)言學(xué)、計(jì)算機(jī)科學(xué)和技術(shù)、語(yǔ)音識(shí)別與語(yǔ)音合成以及 通訊技術(shù)等多種學(xué)科和技術(shù),因此開展這項(xiàng)研究具有重要的科學(xué)意義。 而該技術(shù)一旦獲得突破,可以應(yīng)用于社會(huì)生活的各個(gè)方面,例如,國(guó) 際民航信息咨詢,國(guó)際會(huì)議(包括體育運(yùn)動(dòng)會(huì))信息綜合服務(wù),旅游 信息咨詢等,因此,該技術(shù)又蘊(yùn)涵著潛在的巨大的社會(huì)效益和經(jīng)濟(jì)利 益。為此,許多發(fā)達(dá)國(guó)家競(jìng)相投入巨資開展全國(guó)性或多國(guó)性的聯(lián)合攻 關(guān)。
目前的口語(yǔ)翻譯系統(tǒng)都是首先將源語(yǔ)言的語(yǔ)音信號(hào)轉(zhuǎn)換成文字,然 后再對(duì)文字進(jìn)行分析、轉(zhuǎn)換、生成,最后將譯文轉(zhuǎn)換成語(yǔ)音信號(hào)輸出。 也就是說(shuō),口語(yǔ)翻譯系統(tǒng)主要由語(yǔ)音識(shí)別、機(jī)器翻譯和語(yǔ)音合成三個(gè) 主要模塊構(gòu)成。正如前所述,目前的口語(yǔ)翻譯系統(tǒng)首先由語(yǔ)音識(shí)別模 塊將語(yǔ)音信號(hào)轉(zhuǎn)化成文字,然后翻譯模塊再對(duì)文字進(jìn)行翻譯處理。所 以可以說(shuō),這里并沒(méi)有很好的將語(yǔ)音識(shí)別和機(jī)器翻譯真正有機(jī)統(tǒng)一和 結(jié)合起來(lái),整個(gè)系統(tǒng)相當(dāng)于串聯(lián)結(jié)構(gòu),前端的語(yǔ)音識(shí)別的錯(cuò)誤會(huì)毫無(wú) 保留的延續(xù)到后續(xù)的翻譯模塊當(dāng)中。而當(dāng)今的翻譯方法無(wú)論是基于短 語(yǔ)或基于句法的翻譯系統(tǒng),實(shí)際上還是針對(duì)字(單字或多字)進(jìn)行訓(xùn) 練和解碼的,整個(gè)訓(xùn)練和解碼流程如圖1所示,該實(shí)施步驟為:1)在 訓(xùn)練階段,輸入的是基于字(單字或多字)的漢外訓(xùn)練語(yǔ)料,通過(guò)步 驟A1進(jìn)行基于字的詞對(duì)齊訓(xùn)練,獲取基于字的詞對(duì)齊文件,然后通過(guò) 步驟A2,進(jìn)行語(yǔ)言模型的訓(xùn)練,獲取基于字的語(yǔ)言模型,通過(guò)步驟A3 進(jìn)行翻譯模型的訓(xùn)練,獲取基于字的翻譯模型,而后通過(guò)步驟A4進(jìn)行 基于字的最小錯(cuò)誤訓(xùn)練,獲取基于字的翻譯模型下的各種特征權(quán)重和 各種優(yōu)化參數(shù),最后通過(guò)A5進(jìn)行解碼,得到最終翻譯結(jié)果。從該流程 圖我們可以很清楚的看到,因?yàn)檎麄€(gè)訓(xùn)練和解碼過(guò)程都是基于字的, 所以如果一旦語(yǔ)音識(shí)別輸出的文字有誤,則后續(xù)的基于字的翻譯系統(tǒng) 就很難對(duì)前端的錯(cuò)誤得到很好的糾正,從而導(dǎo)致翻譯質(zhì)量下降。而且 口語(yǔ)翻譯系統(tǒng)由于口語(yǔ)的多變性尤其是漢語(yǔ)中大量同音異形字的存在 會(huì)導(dǎo)致語(yǔ)音識(shí)別結(jié)果往往出現(xiàn)同音異形字,這對(duì)于基于字的翻譯方法 而言就成了未登陸詞,即便不是未登陸詞,也會(huì)導(dǎo)致組合的片段無(wú)法 在翻譯知識(shí)中找到很好的對(duì)應(yīng)片段,使得翻譯質(zhì)量大大降低。也就是 說(shuō)以往的基于字形式的語(yǔ)音翻譯方法根本無(wú)法解決這種同音異形字帶 來(lái)的錯(cuò)誤,使得本來(lái)可以召回的這部分待翻譯內(nèi)容變成未登陸詞或錯(cuò) 誤詞匯片段,找不到相應(yīng)義項(xiàng)導(dǎo)致翻譯失敗。
發(fā)明內(nèi)容
為了解決這個(gè)問(wèn)題,本發(fā)明提出了利用拼音替代漢字甚至是利用 拼音和漢字兩者相結(jié)合的方法來(lái)對(duì)翻譯模塊進(jìn)行訓(xùn)練和解碼,不僅能 夠有效降低語(yǔ)音識(shí)別由于同音異形字導(dǎo)致的錯(cuò)誤,而且由于將拼音和 漢字相互結(jié)合,能夠獲取更準(zhǔn)確的翻譯規(guī)則,從而增強(qiáng)系統(tǒng)的魯棒性, 提高口語(yǔ)翻譯系統(tǒng)的質(zhì)量。針對(duì)現(xiàn)有技術(shù)的問(wèn)題,本發(fā)明的目的是對(duì) 現(xiàn)有的口語(yǔ)翻譯系統(tǒng)進(jìn)行改善提高,提出一種將拼音和漢字相結(jié)合的 翻譯方法,希望利用拼音和漢字的結(jié)合來(lái)有效降低未登陸詞導(dǎo)致的錯(cuò) 誤,并通過(guò)兩者相互結(jié)合的方法來(lái)提高詞對(duì)齊的精度,生成更可信的 翻譯規(guī)則,從而提高翻譯質(zhì)量。為此本發(fā)明提供一種新的口語(yǔ)翻譯方 法。
為了實(shí)現(xiàn)所述的目的,本發(fā)明提供一種將拼音和漢字相結(jié)合的方 法用于口語(yǔ)翻譯系統(tǒng),利用拼音和漢字相結(jié)合的方法進(jìn)行訓(xùn)練和解碼, 其具體實(shí)現(xiàn)步驟包括:
步驟S1:對(duì)原始漢外語(yǔ)料的漢語(yǔ)部分進(jìn)行字音轉(zhuǎn)化,將所有連續(xù) 漢字轉(zhuǎn)化為相應(yīng)的拼音,經(jīng)過(guò)將原始漢外語(yǔ)料的漢語(yǔ)部分進(jìn)行字音轉(zhuǎn) 化,得到基于拼音的漢語(yǔ)語(yǔ)料并與原始外語(yǔ)語(yǔ)料重新進(jìn)行對(duì)齊組合就 得到了基于拼音的漢外訓(xùn)練語(yǔ)料;并對(duì)原始漢語(yǔ)語(yǔ)料轉(zhuǎn)化為基于漢語(yǔ) 單字分隔形式的語(yǔ)料,得到基于漢語(yǔ)單字分隔的漢語(yǔ)語(yǔ)料并與原始外 語(yǔ)語(yǔ)料重新進(jìn)行組合就得到了基于漢字的漢外訓(xùn)練語(yǔ)料;
步驟S2:利用基于拼音的漢外訓(xùn)練語(yǔ)料進(jìn)行詞對(duì)齊的訓(xùn)練,得到 基于拼音的詞對(duì)齊;利用基于漢字的漢外訓(xùn)練語(yǔ)料進(jìn)行詞對(duì)齊的訓(xùn)練, 得到基于漢字的詞對(duì)齊;
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于中國(guó)科學(xué)院自動(dòng)化研究所,未經(jīng)中國(guó)科學(xué)院自動(dòng)化研究所許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/200910244513.6/2.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專利網(wǎng)。
- 同類專利
- 專利分類
G06F 電數(shù)字?jǐn)?shù)據(jù)處理
G06F17-00 特別適用于特定功能的數(shù)字計(jì)算設(shè)備或數(shù)據(jù)處理設(shè)備或數(shù)據(jù)處理方法
G06F17-10 .復(fù)雜數(shù)學(xué)運(yùn)算的
G06F17-20 .處理自然語(yǔ)言數(shù)據(jù)的
G06F17-30 .信息檢索;及其數(shù)據(jù)庫(kù)結(jié)構(gòu)
G06F17-40 .數(shù)據(jù)的獲取和記錄
G06F17-50 .計(jì)算機(jī)輔助設(shè)計(jì)
- 轉(zhuǎn)換文本的方法和設(shè)備
- 轉(zhuǎn)換文本的方法和設(shè)備
- 個(gè)性化外語(yǔ)口語(yǔ)學(xué)習(xí)系統(tǒng)及方法
- 終端及其口語(yǔ)學(xué)習(xí)方法
- 一種口語(yǔ)測(cè)評(píng)方法、裝置及一種生成口語(yǔ)測(cè)評(píng)模型的裝置
- 口語(yǔ)發(fā)音評(píng)測(cè)方法、裝置、設(shè)備及存儲(chǔ)設(shè)備
- 口語(yǔ)練習(xí)輔助方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)
- 文本處理方法、裝置及計(jì)算設(shè)備
- 一種口語(yǔ)測(cè)評(píng)貼紙的獲取方法、終端設(shè)備及存儲(chǔ)介質(zhì)
- 口語(yǔ)信息處理方法、裝置和電子設(shè)備





