[發(fā)明專利]一種極短語音語種識別特征提取方法在審

申請?zhí)枺?/td>	202110755053.4	申請日：	2021-07-02
公開（公告）號：	CN113380226A	公開（公告）日：	2021-09-10
發(fā)明（設(shè)計）人：	劉俊南;郭鵬;江海;魏欣;齊心	申請（專利權(quán)）人：	因諾微科技（天津）有限公司
主分類號：	G10L15/00	分類號：	G10L15/00;G10L15/20;G10L25/03;G10L25/18
代理公司：	天津諾德知識產(chǎn)權(quán)代理事務(wù)所(特殊普通合伙) 12213	代理人：	朱卉
地址：	300000 天津市濱海新區(qū)華苑產(chǎn)業(yè)***	國省代碼：	天津;12
權(quán)利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關(guān)鍵詞：	一種語音語種識別特征提取方法
鉆瓜網(wǎng) 技術(shù)展會專利詞庫專利權(quán)人專利榜在售專利公布日期熱門專利

【說明書】：

一種極短語音語種識別特征提取方法，所述方法包括步驟：獲取輸入語音信號；對所述輸入語音信號進(jìn)行預(yù)處理；獲取基于線性預(yù)測系數(shù)算法；使用所述基于線性預(yù)測系數(shù)算法對所述輸入語音信號進(jìn)行特征提取。本申請針對時長1s的極短語音提取語種識別特征進(jìn)行研究，設(shè)計對極短(1s長度)語音語種識別更加魯棒的特征提取方法，該特征利用頻域線性預(yù)測系數(shù)(FDLP)方法，先使用離散余弦變換(Discrete Cosine Transform，DCT)獲得信號的頻域等價物，再在頻域等價物上利用線性預(yù)測(Linear Prediction,LP)分析計算得到語音信號的子帶包絡(luò)信號(Sub?band Envelop Signal)，然后將子帶包絡(luò)信號經(jīng)過傅里葉變換轉(zhuǎn)化為子帶包絡(luò)的頻域信號，然后計算子帶包絡(luò)幅度特征。

技術(shù)領(lǐng)域

本發(fā)明屬于語音識別技術(shù)領(lǐng)域，具體涉及一種極短語音語種識別特征提取方法。

背景技術(shù)

語種識別是識別一個語音段中包含的語種類別的任務(wù)，語種識別一般作為其他很多語音識別系統(tǒng)的前端處理器，例如多語種連續(xù)語音識別、語音翻譯等。而作為這些系統(tǒng)的前端處理器，在實時性上就有更高的要求，因此提升語種識別在短語音上的性能具有重要實用意義。

經(jīng)過多年發(fā)展，語音語種識別系統(tǒng)可用的特征從使用短時頻域特征 MFCC、FilterBank、FFT特征,轉(zhuǎn)向使用基于深度學(xué)習(xí)的DBF、PLLR等特征，以及最近提出的可解釋的SincNet神經(jīng)網(wǎng)絡(luò)特征。這些提出的特征對于長語音語種識別性能較好，但是由于短語音語段中提取到的特征有效數(shù)據(jù)不足、說話人多種噪音干擾、語音信息少等問題，當(dāng)識別語音長度較短時(如3s) 準(zhǔn)確率有所下降。而當(dāng)識別語音長度極短時(如1s)，識別性能更是下降明顯。

發(fā)明內(nèi)容

為解決上述問題，本發(fā)明提供了一種極短語音語種識別特征提取方法，所述方法包括步驟：

獲取輸入語音信號；

對所述輸入語音信號進(jìn)行預(yù)處理；

獲取基于線性預(yù)測系數(shù)算法；

使用所述基于線性預(yù)測系數(shù)算法對所述輸入語音信號進(jìn)行特征提取。

優(yōu)選地，所述對所述輸入語音信號進(jìn)行預(yù)處理包括步驟：

對所述輸入語音信號進(jìn)行降噪處理；

基于信噪比SNR對所述輸入語音信號進(jìn)行靜音檢測處理；

將所述輸入語音信號分割為預(yù)設(shè)長度的有效語音。

優(yōu)選地，所述基于信噪比SNR對所述輸入語音信號進(jìn)行靜音檢測處理包括步驟：

獲取降噪處理后的所述輸入語音信號；

去除所述輸入語音信號中的非語音段；

保留所述輸入語音信號中的有效語音段。

優(yōu)選地，所述將所述輸入語音信號分割為預(yù)設(shè)長度的有效語音包括步驟：

獲取靜音檢測處理后的有效語音段；

將所述有效語音段分割為預(yù)設(shè)長度的多段有效語音；

對每段所述有效語音進(jìn)行單獨語種識別；

將多段所述有效語音語種識別結(jié)果進(jìn)行得分融合；

判斷得分是否達(dá)到預(yù)設(shè)置信度閾值；

若是，獲取所有所述有效語音；

若否，返回所述對每段所述有效語音進(jìn)行單獨語種識別步驟。

優(yōu)選地，所述使用所述基于線性預(yù)測系數(shù)算法對所述輸入語音信號進(jìn)行特征提取包括步驟：

獲取所述輸入語音信號中的有效語音；

下載完整專利技術(shù)內(nèi)容需要扣除積分，VIP會員可以免費下載。

免登錄下載普通用戶下載升級VIP會員，免費下載

該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息，商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于因諾微科技（天津）有限公司，未經(jīng)因諾微科技（天津）有限公司許可，擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作，請聯(lián)系【客服】

本文鏈接：http://www.szxzyx.cn/pat/books/202110755053.4/2.html，轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。

同類專利

專利分類

G 物理

G10 樂器；聲學(xué)
G10L 語音分析或合成；語音識別；音頻分析或處理
G10L15-00 語音識別
G10L15-02 .語音識別的特征提取；識別單位的選擇
G10L15-04 .分段或字極限檢測
G10L15-06 .創(chuàng)建基準(zhǔn)模板；訓(xùn)練語音識別系統(tǒng)，例如對說話者聲音特征的適應(yīng)
G10L15-08 .語音分類或檢索
G10L15-20 .專門適用于不利環(huán)境

免登錄下載普通用戶下載升級VIP會員，免費下載

專利文獻(xiàn)下載

說明：

1、專利原文基于中國國家知識產(chǎn)權(quán)局專利說明書；

2、支持發(fā)明專利、實用新型專利、外觀設(shè)計專利（升級中）；

3、專利數(shù)據(jù)每周兩次同步更新，支持Adobe PDF格式；

4、內(nèi)容包括專利技術(shù)的結(jié)構(gòu)示意圖、流程工藝圖或技術(shù)構(gòu)造圖；

5、已全新升級為極速版,下載速度顯著提升！歡迎使用！

請您登陸后，進(jìn)行下載，點擊【登陸】【注冊】