[發(fā)明專利]基于深度神經(jīng)網(wǎng)絡(luò)模型的帶噪語音端點檢測方法及裝置在審
| 申請?zhí)枺?/td> | 202110478661.5 | 申請日: | 2021-04-30 |
| 公開(公告)號: | CN113327633A | 公開(公告)日: | 2021-08-31 |
| 發(fā)明(設(shè)計)人: | 詹瑾;趙慧民;黃科喬 | 申請(專利權(quán))人: | 廣東技術(shù)師范大學(xué) |
| 主分類號: | G10L25/87 | 分類號: | G10L25/87;G10L25/30;G10L15/16;G10L15/04 |
| 代理公司: | 廣東廣盈專利商標(biāo)事務(wù)所(普通合伙) 44339 | 代理人: | 李俊 |
| 地址: | 510630 廣東*** | 國省代碼: | 廣東;44 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 基于 深度 神經(jīng)網(wǎng)絡(luò) 模型 語音 端點 檢測 方法 裝置 | ||
本發(fā)明公開了一種基于深度神經(jīng)網(wǎng)絡(luò)模型的帶噪語音端點檢測方法及裝置,其中,所述方法包括:獲得帶噪語音信息數(shù)據(jù);對于所述帶噪語音信息數(shù)據(jù)進(jìn)行預(yù)處理,獲得預(yù)處理后的帶噪語音信息數(shù)據(jù);對所述預(yù)處理后的帶噪語音信息數(shù)據(jù)進(jìn)行小波變換處理,獲得小波變換后的帶噪語音信息數(shù)據(jù);基于所述小波變換后的帶噪語音信息數(shù)據(jù)進(jìn)行能量熵計算,獲得能量熵計算結(jié)果;基于所述能量熵計算結(jié)果進(jìn)行能量熵特征矩陣的構(gòu)建,獲得能量熵特征矩陣;將所述能量熵特征矩陣輸入預(yù)設(shè)的深度神經(jīng)網(wǎng)絡(luò)模型中進(jìn)行端點檢測識別處理,輸出端點檢測識別結(jié)果。在本發(fā)明實施例中,可以快速的檢測出帶噪語音信息數(shù)據(jù)中的語音段和非語音段,并且具有較高的識別率。
技術(shù)領(lǐng)域
本發(fā)明涉及語音識別檢測技術(shù)領(lǐng)域,尤其涉及一種基于深度神經(jīng)網(wǎng)絡(luò)模型的帶噪語音端點檢測方法及裝置。
背景技術(shù)
隨著智能技術(shù)的發(fā)展,語音識別、語音分析、語音壓縮及語音合作等技術(shù)領(lǐng)域的發(fā)展和應(yīng)用,對語音信號中的處理要求越來越高,所需要的的計算復(fù)雜度也越來越多,因此需要在進(jìn)行相關(guān)語音處理的時候,首先對識別帶噪語音信息中的語音段和非語音段,現(xiàn)有技術(shù)中,一般通過短時能量法、過零率檢測法等方式進(jìn)行識別,但是識別速度較慢,并且識別準(zhǔn)確率不高,無法滿足后續(xù)的語音處理的要求。
發(fā)明內(nèi)容
本發(fā)明的目的在于克服現(xiàn)有技術(shù)的不足,本發(fā)明提供了一種基于深度神經(jīng)網(wǎng)絡(luò)模型的帶噪語音端點檢測方法及裝置,可以快速的檢測出帶噪語音信息數(shù)據(jù)中的語音段和非語音段,并且具有較高的識別率。
為了解決上述技術(shù)問題,本發(fā)明實施例提供了一種基于深度神經(jīng)網(wǎng)絡(luò)模型的帶噪語音端點檢測方法,所述方法包括:
獲得帶噪語音信息數(shù)據(jù);
對于所述帶噪語音信息數(shù)據(jù)進(jìn)行預(yù)處理,獲得預(yù)處理后的帶噪語音信息數(shù)據(jù);
對所述預(yù)處理后的帶噪語音信息數(shù)據(jù)進(jìn)行小波變換處理,獲得小波變換后的帶噪語音信息數(shù)據(jù);
基于所述小波變換后的帶噪語音信息數(shù)據(jù)進(jìn)行能量熵計算,獲得能量熵計算結(jié)果;
基于所述能量熵計算結(jié)果進(jìn)行能量熵特征矩陣的構(gòu)建,獲得能量熵特征矩陣;
將所述能量熵特征矩陣輸入預(yù)設(shè)的深度神經(jīng)網(wǎng)絡(luò)模型中進(jìn)行端點檢測識別處理,輸出端點檢測識別結(jié)果。
可選的,所述獲得帶噪語音信息數(shù)據(jù),包括:
基于預(yù)設(shè)的麥克風(fēng)設(shè)備進(jìn)行語音信息采集處理,獲得帶噪語音信息數(shù)據(jù);或,接收用戶輸入的方式獲得帶噪語音信息數(shù)據(jù)。
可選的,所述對于所述帶噪語音信息數(shù)據(jù)進(jìn)行預(yù)處理,獲得預(yù)處理后的帶噪語音信息數(shù)據(jù),包括:
基于漢明窗函數(shù)對所述帶噪語音信息數(shù)據(jù)進(jìn)行加窗處理,獲得加窗處理結(jié)果;
對所述加窗處理結(jié)果進(jìn)行按照預(yù)設(shè)分幀規(guī)則進(jìn)行分幀處理,獲得預(yù)處理后的帶噪語音信息數(shù)據(jù)。
可選的,所述對所述預(yù)處理后的帶噪語音信息數(shù)據(jù)進(jìn)行小波變換處理,獲得小波變換后的帶噪語音信息數(shù)據(jù),包括:
獲得用于小波變換的分解過程中的分解層數(shù);
基于所述分解層數(shù)對所述預(yù)處理后的帶噪語音信息數(shù)據(jù)進(jìn)行小波變換處理,獲得小波變換后的帶噪語音信息數(shù)據(jù)。
可選的,所述獲得用于小波變換的分解過程中的分解層數(shù),包括:
基于所述預(yù)處理后的帶噪語音信息數(shù)據(jù)的語音信噪比;
基于所述語音信噪比獲得用于小波變換的分解過程中的分解層數(shù)。
可選的,所述基于所述小波變換后的帶噪語音信息數(shù)據(jù)進(jìn)行能量熵計算,獲得能量熵計算結(jié)果,包括:
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于廣東技術(shù)師范大學(xué),未經(jīng)廣東技術(shù)師范大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110478661.5/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 硬件神經(jīng)網(wǎng)絡(luò)轉(zhuǎn)換方法、計算裝置、軟硬件協(xié)作系統(tǒng)
- 生成較大神經(jīng)網(wǎng)絡(luò)
- 神經(jīng)網(wǎng)絡(luò)的生成方法、生成裝置和電子設(shè)備
- 一種舌診方法、裝置、計算設(shè)備及計算機(jī)存儲介質(zhì)
- 學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)
- 脈沖神經(jīng)網(wǎng)絡(luò)轉(zhuǎn)換方法及相關(guān)轉(zhuǎn)換芯片
- 圖像處理方法、裝置、可讀存儲介質(zhì)和計算機(jī)設(shè)備
- 一種適應(yīng)目標(biāo)數(shù)據(jù)集的網(wǎng)絡(luò)模型微調(diào)方法、系統(tǒng)、終端和存儲介質(zhì)
- 用于重構(gòu)人工神經(jīng)網(wǎng)絡(luò)的處理器及其操作方法、電氣設(shè)備
- 一種圖像神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)的優(yōu)化方法及裝置





