[發明專利]一種方言語境的多語言翻譯方法在審
申請號: | 201710368832.2 | 申請日: | 2017-05-23 |
公開(公告)號: | CN107248409A | 公開(公告)日: | 2017-10-13 |
發明(設計)人: | 李伊甸;戴沛景 | 申請(專利權)人: | 四川欣意邁科技有限公司 |
主分類號: | G10L15/02 | 分類號: | G10L15/02;G10L15/04;G10L15/06;G06F17/28 |
代理公司: | 成都弘毅天承知識產權代理有限公司51230 | 代理人: | 徐金瓊,劉東 |
地址: | 610000 四川省成都*** | 國省代碼: | 四川;51 |
權利要求書: | 查看更多 | 說明書: | 查看更多 |
摘要: | |||
搜索關鍵詞: | 一種 方言 語境 語言 翻譯 方法 | ||
技術領域
一種方言語境的多語言翻譯系統及方法,用于方言和個性化語音的翻譯,屬于計算機語言翻譯技術領域。
背景技術
在世界各國文化、經濟、軍事等各領域的交往中,語言的溝通顯得尤為重要,為了準確的表達兩種語言的意義長期以來在各種外事交往中主要還是以人翻譯為主。近年來隨著計算機及數字技術的快速發展,用計算機及數字技術做翻譯工作已取得了很大的進步,各種優秀的計算機翻譯系統不斷涌現,特別在文字翻譯方面已較完美。但在用計算機翻譯系統做同聲翻譯方面由于各母語系下方言較多語境不同或個人發音的偏好導致誤譯率較高,不能準確表達源語音的意義。
在眾多的語言翻譯系統及翻譯設備中都只能將源母語系中的相對標準的基語音翻譯為目標語系的標準基語音。但在現實應用環境中由于需翻譯的源語音在很多情況下為非標準語音,世界上各大母語系中每種母語系都有若干的地方方言,這導致計算機化的語言翻譯系統因語境的不同有很高的誤譯率。
專利號為200820234990.5的專利,是通過提取方言語音的字、詞句作為特征與標準基語音進行直接對比來找到方言語音對應的標準基語音,一旦說方言的人發音不準確,就容易造成翻譯不準確,從而找不到對應的標準基語音,而且所要翻譯的每句方言都需要存儲,造成存儲成本、運行硬件成本高及計算機運算速度慢等問題。
發明內容
本發明的目的在于:解決現有技術中的語言翻譯工具不能準確的翻譯方言,增加翻譯的誤譯率的問題,提供了一種方言語境的多語言翻譯方法。
本發明采用的技術方案如下:
一種方言語境的多語言翻譯方法,其特征在于包括以下步驟:
步驟1、建立母語系下各種方言語音的特征碼組成的特征碼庫;
步驟2、根據特征碼與標準基語音特征碼的差異產生方言的特征補償碼,組成特征補償碼庫;
步驟3、用特征補償碼與其對應的源語音復合產生出對應母語系下的標準基語音;
步驟4、標準基語音轉換成目標語言的語音或文本。
進一步,特征碼庫的建立方法包括以下步驟:
步驟1.1、獲得母語系下各種方言語音樣本;
步驟1.2、對方言語音樣本進行預處理去掉冗余部分,通過帶通濾波器進行預濾波處理后再通過一個高通濾波器進行預加重,對預加重后的方言語音樣本減噪后乘以漢明窗后進行端點檢測;
步驟1.3、將乘以漢明窗預處理后的方言語音樣本進行頻譜分析,然后進行特征提取,特征提取頻譜分析后的方言語音樣本的共振峰,基音周期特征,MFCC及LPCC參數特征碼;
步驟1.4將獲取的共振峰,基音周期特征,MFCC及LPCC參數特征碼進行去冗余后對多個方言語音文件進行特征碼的概率分布統計,找出其共同特性做為該方言語音的特征碼要素;
步驟1.5將具有特征碼要素的代碼采用壓縮方式重新編碼為64字節的方言語音的特征碼,將該特征碼賦予檢索號編入特征碼庫。
進一步,步驟1.3中對頻譜分析后的方言語音的共振峰的提取步驟包括:
對頻譜分析后的方言語音經過同態濾波后得到平滑的譜再對該譜求離散傅里葉變換,然后用DFT譜來提取語音信號的共振峰參數。
進一步,步驟1.3中對頻譜分析后的方言語音的基音周期特征的提取步驟包括:
對頻譜分析后的方言語音采用平均幅度差函數法來提取基音周期特征。
進一步,步驟1.3中對頻譜分析后的方言語音的MFCC參數的提取步驟包括:
將頻譜分析后的方言語音進行短時傅里葉變換得到其頻譜,再求頻譜幅度的平方得能量譜,用三角濾波均衡器進行帶通濾波,濾波器的個數與臨界帶數相近,設濾波器數為M,濾波后得到的輸出為:x(k),k=l,2,…,M,對濾波器組的輸出取對數,然后作2M點逆傅里葉變換即可得到MFCC參數。
進一步,步驟1.3中對頻譜分析后的方言語音的LPCC參數的提取步驟包括:
將頻譜分析后的方言語音進行Z變換后對數模函數的反Z變換,通過信號的傅里葉變換,取模的對數,再求反傅里葉變換得到LPCC參數。
進一步,步驟2中特征補償碼庫的建立采用以下步驟:
步驟2.1、獲取母語系下的標準基語音樣本,提取標準基語音的特征碼;
步驟2.2、對母語系下方言語音特征碼與標準基語音特征碼進行分析比較,得出有泛意的各自概率分布差異頻譜;
步驟2.3、將該差異頻譜進行反碼疊加運算得出方言語音的特征補償碼;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于四川欣意邁科技有限公司,未經四川欣意邁科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710368832.2/2.html,轉載請聲明來源鉆瓜專利網。