[發明專利]一種融合發音特征漢語-越南語統計機器翻譯方法在審
| 申請號: | 201910382004.3 | 申請日: | 2019-05-06 |
| 公開(公告)號: | CN110096715A | 公開(公告)日: | 2019-08-06 |
| 發明(設計)人: | 史樹敏;羅丹;黃河燕;陳友英;蘇超 | 申請(專利權)人: | 北京理工大學 |
| 主分類號: | G06F17/28 | 分類號: | G06F17/28 |
| 代理公司: | 北京理工正陽知識產權代理事務所(普通合伙) 11639 | 代理人: | 唐華 |
| 地址: | 100081 *** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 統計機器翻譯 越南語 機器翻譯 發音特征 語料 漢語 聲調 音節 韻母 輔音 元音 融合 漢字 漢語拼音聲母 應用技術領域 大規模語料 特征融合 稀缺資源 語言規律 短語 聲母 新格式 轉換 拼音 平行 語言 統計 | ||
本發明公開了一種融合發音特征漢語?越南語統計機器翻譯方法,屬于機器翻譯及特征融合應用技術領域。本方法通過漢語?越南語平行語料,利用統計得到的漢語拼音聲母與越南語的元音、韻母與輔音以及聲調之間的相關性,將基于純漢字的漢語語料轉換為漢字輔以拼音?聲母?韻母?聲調的格式,將基于純音節的越南語語料轉換成音節輔以元音?輔音?聲調的格式;再將新格式語料輸入機器翻譯模型中進行訓練,充分利用漢越雙語獨特的語言規律信息。所述方法降低了稀缺資源統計機器翻譯對大規模語料的依賴,解決了傳統基于短語的統計機器翻譯不能融合發音特征的缺點,提升資源稀缺型語言間的機器翻譯性能。
技術領域
本發明涉及一種融合發音特征漢語-越南語統計機器翻譯方法,尤其涉及一種融合發音特征基于因子的漢語-越南語統計機器翻譯(Factored Translation Model,FTM)方法,屬于機器翻譯及特征融合應用技術領域。
背景技術
近幾年,機器翻譯(Machine Translation,MT)在多個翻譯評測任務上的性能均取得了顯著的提升,統計機器翻譯被認為是機器翻譯中最經典的方法,它首先對整個源語言句子的翻譯過程進行數學建模,形成一個源語言到目標語言間的概率模型,然后通過搜索找出概率最大的路徑,形成最優譯文。然而資源稀缺型語言之間的統計機器翻譯由于可用訓練語料的缺乏,翻譯質量很差。
漢語-越南語是資源稀缺型語言對,高質量,大規模的平行語料和相關的預處理工具十分缺乏,這使得漢越統計機器翻譯的質量不佳。越南語中有65%的中越詞(Sino-Vietnamese)存在,這些詞起源于漢語,并且與漢語發音相似。同樣擁有這些特征的語言還有日語,韓語等。如何利用漢語與越南語發音相似這一特征,來降低機器翻譯對大規模平行語料的依賴,是值得關注的一個問題。
傳統的解決稀缺資源翻譯質量受限的方法是引入樞軸語言,然而要將這個方法運用到漢語-越南語的統計機器翻譯中,需要獲得一個大規模的基于越南語的樞軸語料,當下這一要求是不可能達到的。在統計機器翻譯中,基于短語的統計機器翻譯被認為是統計機器翻譯中最先進的方法,但該方法的缺陷是不能直接將詞法,語法,語義等語言規律知識融合到翻譯系統中。此外,也有方法將兩種語言的句法信息或形態學信息融合到統計翻譯模型中,來解決稀缺資源翻譯質量受限問題,然而這一方法的效果依舊不佳。
發明內容
本發明的目的是為解決漢語-越南語機器翻譯資源受限繼而導致翻譯質量差的技術缺陷,提出一種融合發音特征漢語-越南語統計機器翻譯方法。
本發明涉及的漢語-越南語發音相關性及概念如下:
1)越南語與漢語一樣無時態及動詞變化,屬于聲調語言,其構成類似漢語拼音,由元音、輔音以及聲調組成;
2)越南語與漢語同屬于孤立語言,單詞之間沒有空隙;
3)漢語拼音包含23個聲母、36個韻母以及四個聲調;越南語包含23個元音、16個輔音以及五個聲調;
4)一個越南語發音對應唯一的一個詞,而與之相對的漢語拼音的發音,對應多個漢字;
本發明涉及的相關定義如下:
定義1:發音相關性,包括聲母相關性、韻母相關性以及聲調相關性;
其中,聲母相關性是指漢語拼音聲母與越南語元音之間的關聯度;韻母相關性是指漢語拼音韻母與越南語輔音之間的關聯度;聲調相關性是指漢語拼音聲調與越南語聲調之間的關聯度;
定義2:因子,指的是在基于因子的統計機器翻譯模型生成語言模型時,計算源語言與目標語言翻譯概率的單位;
在基于短語的統計機器翻譯中,首先會把源語言和目標語言的完整語句分離成短語,再基于這些短語,計算源語言到目標語言的翻譯概率;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京理工大學,未經北京理工大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910382004.3/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種站方引導型開放的UGC翻譯交互系統
- 下一篇:一種翻譯軟件





