[發(fā)明專利]口音識別方法、裝置、計算機(jī)裝置及計算機(jī)可讀存儲介質(zhì)在審
| 申請?zhí)枺?/td> | 201810922056.0 | 申請日: | 2018-08-14 |
| 公開(公告)號: | CN109036437A | 公開(公告)日: | 2018-12-18 |
| 發(fā)明(設(shè)計)人: | 張絲瀠;王健宗;肖京 | 申請(專利權(quán))人: | 平安科技(深圳)有限公司 |
| 主分類號: | G10L17/02 | 分類號: | G10L17/02;G10L17/04;G10L17/22;G10L25/24 |
| 代理公司: | 深圳市賽恩倍吉知識產(chǎn)權(quán)代理有限公司 44334 | 代理人: | 楊毅玲 |
| 地址: | 518000 廣東省深圳市福田區(qū)福*** | 國省代碼: | 廣東;44 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 口音識別 語音信號 有效語音 計算機(jī)可讀存儲介質(zhì) 預(yù)處理 計算機(jī)裝置 特征參數(shù) 高斯混合模型 通用背景模型 倒譜系數(shù) 梅爾頻率 矢量 判決 檢測 身份 | ||
一種口音識別方法,包括:對待識別語音信號進(jìn)行預(yù)處理;檢測預(yù)處理后的所述待識別語音信號中的有效語音;對所述有效語音提取梅爾頻率倒譜系數(shù)MFCC特征參數(shù);根據(jù)所述MFCC特征參數(shù),利用預(yù)先訓(xùn)練好的高斯混合模型?通用背景模型GMM?UBM提取所述有效語音的身份矢量iVector;根據(jù)所述iVector計算所述待識別語音信號對給定口音的判決得分,根據(jù)所述判決得分得到所述待識別語音信號的口音識別結(jié)果。本發(fā)明還提供一種口音識別裝置、計算機(jī)裝置及計算機(jī)可讀存儲介質(zhì)。本發(fā)明可以實現(xiàn)快速準(zhǔn)確的口音識別。
技術(shù)領(lǐng)域
本發(fā)明計算機(jī)聽覺技術(shù)領(lǐng)域,具體涉及一種口音識別方法及裝置、計算機(jī)裝置和計算機(jī)可讀存儲介質(zhì)。
背景技術(shù)
隨著各類智能身份認(rèn)證的不斷出現(xiàn)和落地應(yīng)用,諸如人臉識別、聲紋識別已經(jīng)獲得了較為成熟的發(fā)展,但識別的準(zhǔn)確性依然有提升的空間,諸如在聲紋識別方向仍然可找到突破點以得到更為準(zhǔn)確的識別結(jié)果,口音因素就是一個。由于說話人所生活的地域不同,即使在都講普通話的情況下或多或少依然會有口音的差別,若能在現(xiàn)有的聲紋識別中加入口音識別作為補(bǔ)充,應(yīng)用場景將會有進(jìn)一步的擴(kuò)展,最為直接的應(yīng)用為在聲紋識別前識別出該說話人所處地域的范圍,進(jìn)而縮小后續(xù)識別的對象范圍。然而,現(xiàn)有的口音識別效果并不理想,識別速度較慢且準(zhǔn)確度不高。
發(fā)明內(nèi)容
鑒于以上內(nèi)容,有必要提出一種口音識別方法及裝置、計算機(jī)裝置和計算機(jī)可讀存儲介質(zhì),其可以實現(xiàn)快速準(zhǔn)確的口音識別。
本申請的第一方面提供一種口音識別方法,所述方法包括:
對待識別語音信號進(jìn)行預(yù)處理;
檢測預(yù)處理后的所述待識別語音信號中的有效語音;
對所述有效語音提取梅爾頻率倒譜系數(shù)MFCC特征參數(shù);
根據(jù)所述MFCC特征參數(shù),利用預(yù)先訓(xùn)練好的高斯混合模型-通用背景模型GMM-UBM提取所述有效語音的身份矢量iVector;
根據(jù)所述iVector計算所述待識別語音信號對給定口音的判決得分,根據(jù)所述判決得分得到所述待識別語音信號的口音識別結(jié)果。
另一種可能的實現(xiàn)方式中,所述檢測預(yù)處理后的所述待識別語音信號中的有效語音包括:
對預(yù)處理后的所述待識別語音信號進(jìn)行加窗分幀,得到所述待識別語音信號的語音幀;
對所述語音幀進(jìn)行離散傅里葉變換,得到所述語音幀的頻譜;
根據(jù)所述語音幀的頻譜計算各個頻帶的累計能量;
對所述各個頻帶的累計能量進(jìn)行對數(shù)運(yùn)算,得到所述各個頻帶的累計能量對數(shù)值;
將所述各個頻帶的累計能量對數(shù)值與預(yù)設(shè)閾值進(jìn)行比較,得到所述有效語音。
另一種可能的實現(xiàn)方式中,所述MFCC特征參數(shù)包括初始MFCC特征參數(shù)、一階差分MFCC特征參數(shù)和二階差分MFCC特征參數(shù)。
另一種可能的實現(xiàn)方式中,所述方法還包括:
對所述iVector進(jìn)行噪聲補(bǔ)償。
另一種可能的實現(xiàn)方式中,所述根據(jù)所述iVector計算所述待識別語音信號對給定口音的判決得分包括:
將所述iVector輸入邏輯回歸模型,得到所述待識別語音信號對給定口音的判決得分。
另一種可能的實現(xiàn)方式中,所述對所述有效語音提取梅爾頻率倒譜系數(shù)MFCC特征參數(shù)包括:
采用雙線性變換低通濾波器截止頻率的映射公式,計算對齊不同說話人平均第三共振峰的頻率彎折因子;
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于平安科技(深圳)有限公司,未經(jīng)平安科技(深圳)有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810922056.0/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 用于生產(chǎn)組合物的監(jiān)測設(shè)備
- 用于生產(chǎn)組合物的監(jiān)測設(shè)備
- 用于視頻編碼和解碼的裝置和方法
- 用于興趣點識別的系統(tǒng)和方法
- 自適應(yīng)云計算信道處理方法及存儲介質(zhì)
- 用于將操作系統(tǒng)存儲在計算機(jī)可讀介質(zhì)上的BIOS代碼
- 一種電子名片自動匹配的方法、系統(tǒng)、移動裝置及計算機(jī)可讀存儲介質(zhì)
- 相機(jī)組同步曝光控制方法及系統(tǒng)、計算機(jī)可讀存儲介質(zhì)、相機(jī)組控制系統(tǒng)
- 炒鍋翻炒方法、計算機(jī)可讀存儲介質(zhì)及智能炒菜機(jī)
- 用于計算機(jī)系統(tǒng)啟動操作的系統(tǒng)及方法





