[發(fā)明專利]語音活動檢測及其模型建立方法、裝置、設(shè)備及存儲介質(zhì)有效
| 申請?zhí)枺?/td> | 201710824269.5 | 申請日: | 2017-09-13 |
| 公開(公告)號: | CN108346428B | 公開(公告)日: | 2020-10-02 |
| 發(fā)明(設(shè)計)人: | 劉海波 | 申請(專利權(quán))人: | 騰訊科技(深圳)有限公司 |
| 主分類號: | G10L15/05 | 分類號: | G10L15/05;G10L15/06;G10L25/78 |
| 代理公司: | 廣州華進聯(lián)合專利商標(biāo)代理有限公司 44224 | 代理人: | 何平;鄧云鵬 |
| 地址: | 518000 廣東省深圳*** | 國省代碼: | 廣東;44 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 語音 活動 檢測 及其 模型 建立 方法 裝置 設(shè)備 存儲 介質(zhì) | ||
本申請涉及一種語音活動檢測及其模型建立方法、裝置、設(shè)備及存儲介質(zhì),該模型建立方法包括:獲取訓(xùn)練音頻文件及訓(xùn)練音頻文件的目標(biāo)結(jié)果;對訓(xùn)練音頻文件進行分幀得到音頻幀,并提取音頻幀的音頻特征,音頻特征包括至少兩種特征,至少兩種特征包括能量;將音頻特征作為深度神經(jīng)網(wǎng)絡(luò)模型的輸入,并經(jīng)過深度神經(jīng)網(wǎng)絡(luò)模型的隱藏層進行信息處理,由深度神經(jīng)網(wǎng)絡(luò)模型的輸出層輸出,得到訓(xùn)練結(jié)果;將訓(xùn)練結(jié)果與目標(biāo)結(jié)果的偏差作為誤差反向傳播機制的輸入,對隱藏層的權(quán)重分別進行更新,直至深度神經(jīng)網(wǎng)絡(luò)模型達到預(yù)設(shè)條件得到語音活動檢測模型。因此,通過該語音活動檢測模型進行語音活動檢測時的準(zhǔn)確性高。
本發(fā)明涉及語音信息處理技術(shù)領(lǐng)域,特別涉及一種語音活動檢測及其模型建立方法、裝置、設(shè)備及存儲介質(zhì)。
背景技術(shù)
隨著信息技術(shù)的發(fā)展,語音信息的應(yīng)用越來越廣泛,而語音活動檢測對于語音信息的處理具有十分重要的意義。語音活動檢測(Voice Activity Detection,VAD)又稱語音端點檢測,語音邊界檢,是指在噪聲環(huán)境中檢測語音的存在與否,通常用于語音編碼、語音增強等語音處理系統(tǒng)中,起到降低語音編碼速率、節(jié)省通信帶寬、減少計算機設(shè)備能耗、提高識別率等作用。
常用的語音活動檢測方法是基于能量的語音活動檢測方法,該方法認(rèn)為噪聲是平穩(wěn)的,語音部分的能量要高于噪聲部分的能量。根據(jù)這個規(guī)則進行語音/非語音的判定,其主要優(yōu)點是對于平穩(wěn)噪聲的場合有很好的應(yīng)用,應(yīng)用的場合比較廣泛,缺點是對于非平穩(wěn)噪聲以及噪聲比較大的環(huán)境效果不佳,誤判情況嚴(yán)重。因此,傳統(tǒng)的語音活動檢測方法存在檢測準(zhǔn)確性較差的問題。
發(fā)明內(nèi)容
基于此,有必要針對檢測準(zhǔn)確性差的問題,提出一種能提高檢測準(zhǔn)確性的語音活動檢測及其模型建立方法、裝置、設(shè)備及存儲介質(zhì)。
一種語音活動檢測模型建立方法,包括:
獲取訓(xùn)練音頻文件及所述訓(xùn)練音頻文件的目標(biāo)結(jié)果;
對所述訓(xùn)練音頻文件進行分幀得到音頻幀,并提取所述音頻幀的音頻特征,所述音頻特征包括至少兩種特征,所述至少兩種特征包括能量;
將所述音頻特征作為深度神經(jīng)網(wǎng)絡(luò)模型的輸入,并經(jīng)過所述深度神經(jīng)網(wǎng)絡(luò)模型的隱藏層進行信息處理,由所述深度神經(jīng)網(wǎng)絡(luò)模型的輸出層輸出,得到訓(xùn)練結(jié)果;
將所述訓(xùn)練結(jié)果與所述目標(biāo)結(jié)果的偏差作為誤差反向傳播機制的輸入,對所述隱藏層的權(quán)重分別進行更新,直至所述深度神經(jīng)網(wǎng)絡(luò)模型達到預(yù)設(shè)條件得到語音活動檢測模型。
一種語音活動檢測方法,包括:
獲取待檢測音頻文件;
對所述待檢測音頻文件進行分幀得到音頻幀,并提取所述音頻幀的音頻特征;
獲取基于權(quán)利要求1-4任意一項所述的語音活動檢測模型建立方法得到的語音活動檢測模型;
將所述音頻特征輸入至所述語音活動檢測模型,得到檢測結(jié)果。
一種語音活動檢測模型建立裝置,包括:
文件結(jié)果獲取模塊,用于獲取訓(xùn)練音頻文件及所述訓(xùn)練音頻文件的目標(biāo)結(jié)果;
分幀特征提取模塊,用于對所述訓(xùn)練音頻文件進行分幀得到音頻幀,并提取所述音頻幀的音頻特征,所述音頻特征包括至少兩種特征,所述至少兩種特征包括能量;
模型輸入輸出模塊,用于將所述音頻特征作為深度神經(jīng)網(wǎng)絡(luò)模型的輸入,并經(jīng)過所述深度神經(jīng)網(wǎng)絡(luò)模型的隱藏層進行信息處理,由所述深度神經(jīng)網(wǎng)絡(luò)模型的輸出層輸出,得到訓(xùn)練結(jié)果;
模型更新優(yōu)化模塊,用于將所述訓(xùn)練結(jié)果與所述目標(biāo)結(jié)果的偏差作為誤差反向傳播機制的輸入,對所述隱藏層的權(quán)重分別進行更新,直至所述深度神經(jīng)網(wǎng)絡(luò)模型達到預(yù)設(shè)條件得到語音活動檢測模型。
一種語音活動檢測裝置,包括:
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于騰訊科技(深圳)有限公司,未經(jīng)騰訊科技(深圳)有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710824269.5/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。





