[發(fā)明專利]一種極短語音語種識別特征提取方法在審
| 申請?zhí)枺?/td> | 202110755053.4 | 申請日: | 2021-07-02 |
| 公開(公告)號: | CN113380226A | 公開(公告)日: | 2021-09-10 |
| 發(fā)明(設(shè)計)人: | 劉俊南;郭鵬;江海;魏欣;齊心 | 申請(專利權(quán))人: | 因諾微科技(天津)有限公司 |
| 主分類號: | G10L15/00 | 分類號: | G10L15/00;G10L15/20;G10L25/03;G10L25/18 |
| 代理公司: | 天津諾德知識產(chǎn)權(quán)代理事務(wù)所(特殊普通合伙) 12213 | 代理人: | 朱卉 |
| 地址: | 300000 天津市濱海新區(qū)華苑產(chǎn)業(yè)*** | 國省代碼: | 天津;12 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 語音 語種 識別 特征 提取 方法 | ||
一種極短語音語種識別特征提取方法,所述方法包括步驟:獲取輸入語音信號;對所述輸入語音信號進(jìn)行預(yù)處理;獲取基于線性預(yù)測系數(shù)算法;使用所述基于線性預(yù)測系數(shù)算法對所述輸入語音信號進(jìn)行特征提取。本申請針對時長1s的極短語音提取語種識別特征進(jìn)行研究,設(shè)計對極短(1s長度)語音語種識別更加魯棒的特征提取方法,該特征利用頻域線性預(yù)測系數(shù)(FDLP)方法,先使用離散余弦變換(Discrete Cosine Transform,DCT)獲得信號的頻域等價物,再在頻域等價物上利用線性預(yù)測(Linear Prediction,LP)分析計算得到語音信號的子帶包絡(luò)信號(Sub?band Envelop Signal),然后將子帶包絡(luò)信號經(jīng)過傅里葉變換轉(zhuǎn)化為子帶包絡(luò)的頻域信號,然后計算子帶包絡(luò)幅度特征。
技術(shù)領(lǐng)域
本發(fā)明屬于語音識別技術(shù)領(lǐng)域,具體涉及一種極短語音語種識別特征提 取方法。
背景技術(shù)
語種識別是識別一個語音段中包含的語種類別的任務(wù),語種識別一般作 為其他很多語音識別系統(tǒng)的前端處理器,例如多語種連續(xù)語音識別、語音翻 譯等。而作為這些系統(tǒng)的前端處理器,在實時性上就有更高的要求,因此提 升語種識別在短語音上的性能具有重要實用意義。
經(jīng)過多年發(fā)展,語音語種識別系統(tǒng)可用的特征從使用短時頻域特征 MFCC、FilterBank、FFT特征,轉(zhuǎn)向使用基于深度學(xué)習(xí)的DBF、PLLR等特征, 以及最近提出的可解釋的SincNet神經(jīng)網(wǎng)絡(luò)特征。這些提出的特征對于長語 音語種識別性能較好,但是由于短語音語段中提取到的特征有效數(shù)據(jù)不足、 說話人多種噪音干擾、語音信息少等問題,當(dāng)識別語音長度較短時(如3s) 準(zhǔn)確率有所下降。而當(dāng)識別語音長度極短時(如1s),識別性能更是下降明 顯。
發(fā)明內(nèi)容
為解決上述問題,本發(fā)明提供了一種極短語音語種識別特征提取方法, 所述方法包括步驟:
獲取輸入語音信號;
對所述輸入語音信號進(jìn)行預(yù)處理;
獲取基于線性預(yù)測系數(shù)算法;
使用所述基于線性預(yù)測系數(shù)算法對所述輸入語音信號進(jìn)行特征提取。
優(yōu)選地,所述對所述輸入語音信號進(jìn)行預(yù)處理包括步驟:
對所述輸入語音信號進(jìn)行降噪處理;
基于信噪比SNR對所述輸入語音信號進(jìn)行靜音檢測處理;
將所述輸入語音信號分割為預(yù)設(shè)長度的有效語音。
優(yōu)選地,所述基于信噪比SNR對所述輸入語音信號進(jìn)行靜音檢測處理包 括步驟:
獲取降噪處理后的所述輸入語音信號;
去除所述輸入語音信號中的非語音段;
保留所述輸入語音信號中的有效語音段。
優(yōu)選地,所述將所述輸入語音信號分割為預(yù)設(shè)長度的有效語音包括步驟:
獲取靜音檢測處理后的有效語音段;
將所述有效語音段分割為預(yù)設(shè)長度的多段有效語音;
對每段所述有效語音進(jìn)行單獨語種識別;
將多段所述有效語音語種識別結(jié)果進(jìn)行得分融合;
判斷得分是否達(dá)到預(yù)設(shè)置信度閾值;
若是,獲取所有所述有效語音;
若否,返回所述對每段所述有效語音進(jìn)行單獨語種識別步驟。
優(yōu)選地,所述使用所述基于線性預(yù)測系數(shù)算法對所述輸入語音信號進(jìn)行 特征提取包括步驟:
獲取所述輸入語音信號中的有效語音;
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于因諾微科技(天津)有限公司,未經(jīng)因諾微科技(天津)有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110755053.4/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。





