[發明專利]嵌入式系統的漢英雙語語音識別方法在審
| 申請號: | 201710793500.9 | 申請日: | 2017-09-01 |
| 公開(公告)號: | CN107564527A | 公開(公告)日: | 2018-01-09 |
| 發明(設計)人: | 李彩霞 | 申請(專利權)人: | 平頂山學院 |
| 主分類號: | G10L15/26 | 分類號: | G10L15/26;G10L15/06;G10L15/065;G10L15/10;G10L15/20 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 467000 河*** | 國省代碼: | 河南;41 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 嵌入式 系統 漢英 雙語 語音 識別 方法 | ||
技術領域
本發明屬于語音識別技術領域,尤其涉及一種嵌入式系統的漢英雙語語音識別方法。
背景技術
近年來,國外語音識別專用芯片發展很快。國外一些語音技術和半導體公司都投入大量人力和物力開發語音識別專用芯片,并對自己國家語言的語音識別算法進行專利保護。這些專用(系統)芯片的語音識別性能也各不相同。通常的語音識別的過程如圖1所示,輸入的語音信號首先經過A/D進行采樣,頻譜整形加窗預加重處理,提高高頻成分,進行實時特征參數提取,提取的參數為Mel頻標倒譜系數(MFCC),同時進行語音識別模板訓練和語音識別模板匹配,為了提高噪聲環境下的芯片識別性能魯棒性,還會進行語音增強的處理。專用芯片一般包括8位或16位MCU控制器或16位DSP微處理器及與其相連的自動增益控制(AGC)、音頻前置放大器、低通濾波器、數/模(A/D)轉換器、模/數(D/A)轉換器、音頻功率放大器、只讀存儲器(ROM)。這些語音識別專用(系統)芯片已經開始被應用于在智能語音玩具、移動通信終端上。
但是現有的中等詞表的高性能語音識別專用芯片只能識別單語種語言,也就是說識別任務只能由漢語或者英語或者日語等單一語種的語言命令構成,并不支持兩種語言(比如漢英雙語混合)命令的識別。
然而,隨著國際化趨勢的不斷深入,無論是經濟、政治,還是文化、學術,人們在日常生活中所出現的雙語現象已經越來越普遍,比如中英雙名等。因而,僅僅構建基于中文或者英文等單語言的語音識別系統越來越不能順應時代發展的要求。特別是作為世界上使用人數最多以及使用最廣泛的中文和英文,構建一個能夠進行中英文混合識別的系統,并將他在專用芯片系統等便攜設備上實現,顯得非常重要。
發明內容
本發明的目的是,為克服已有芯片系統只能識別單語言的不足,提出一種嵌入式系統的漢英雙語語音識別方法。該方法是基于音素融合建模的漢英雙語嵌入式語音識別、嵌入式語音增強方法。
技術方案是,一種嵌入式系統的漢英雙語語音識別方法,包括A/D采樣及采樣后語音的預加重,提高高頻信號的能量,加窗分幀處理以及語音特征參數的提取,并根據預先建立的聲學模型,進行語音命令的匹配識別,其特征是所述聲學模型的建立過程是確立漢英雙語語音識別初始模型、漢英雙語語音識別初始模型的非母語模型融合調整;所述語音命令的匹配識別具體是漢英雙語語音命令的識別;
其中,所述確立漢英雙語語音識別初始模型包括修訂漢語語音識別模型、修訂英語語音識別模型、合并修訂后的漢語語音識別模型和英語語音識別模型以及訓練合并后的漢語語音和英語語音識別模型;
所述漢英雙語語音識別初始模型的非母語模型融合調整采用可選擇的模型歸并方法對母語模型和非母語模型進行融合,并對融合后的漢英雙語語音識別初始模型進行最小音素錯誤區分性訓練,得到漢英雙語語音識別模型;
所述漢英雙語語音命令的識別通過提取輸入的語音信號的識別特征,計算漢英雙語語音識別模型的高斯分數,根據漢英雙語詞條進行模板匹配,將匹配分數最大的詞條作為識別結果。
所述方法還包括語音增強步驟。
所述合并修訂后的漢語語音識別模型和英語語音識別模型具體是,采用基于狀態時間對準的模型距離計算方法,計算漢語和英語兩兩音素之間的距離,然后將距離最小的一對音素進行合并。
所述訓練合并后的漢語語音和英語語音識別模型,采用最大似然估計準則和期望最大化的估值迭代算法,得到漢英雙語語音識別初始模型。
所述訓練合并后的漢語語音和英語語音識別模型在PC機上完成。
所述采用可選擇的模型歸并方法對母語模型和非母語模型進行融合,包括下列步驟:
(11)通過純母語的數據庫訓練得到一個母語模型M1;
(12)用少量的非母語數據庫對模型M1使用最大似然線性回歸方法進行自適應,得到模型M2;
(13)通過可選擇的模型歸并策略,將漢英雙語語音識別初始模型中的對應某個母語音素λi的模型Sb,與模型M1中的音素λi的對應母語模型Sne和模型M2中λi對應的自適應模型Sa,以及根據非母語易混淆音素變化方法得到的發音字典中對應音素λi的易混淆音素γj的自適應模型γm進行線性的插值融合,得到融合后的音素λi的調整模型Sf;模型插值公式如下:
p(Sf)=λ1p(Sb)+λ2p(Sne)+λ3p(Sa)+λ4p(γm)
其中λ1、λ2、λ3和λ4分別表示對應模型的插值因子。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于平頂山學院,未經平頂山學院許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710793500.9/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:處理方法、裝置和機器可讀介質
- 下一篇:一種手套套取機構的轉送機構





