[發(fā)明專利]一種語音增強方法、裝置、設(shè)備以及存儲介質(zhì)有效
| 申請?zhí)枺?/td> | 202111521637.1 | 申請日: | 2021-12-13 |
| 公開(公告)號: | CN114242098B | 公開(公告)日: | 2023-08-29 |
| 發(fā)明(設(shè)計)人: | 李光正;張國昌;于利標;魏建強 | 申請(專利權(quán))人: | 北京百度網(wǎng)訊科技有限公司 |
| 主分類號: | G10L21/0208 | 分類號: | G10L21/0208;G10L21/0216;G10L21/0264;G10L21/0232;G10L25/30 |
| 代理公司: | 北京品源專利代理有限公司 11332 | 代理人: | 趙翠香 |
| 地址: | 100085 北京市*** | 國省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 語音 增強 方法 裝置 設(shè)備 以及 存儲 介質(zhì) | ||
1.一種語音增強方法,包括:
對至少兩路目標語音進行子帶分解處理,得到所述至少兩路目標語音的幅度譜和相位譜;其中,所述至少兩路目標語音包括:目標混合語音和目標干擾語音;
根據(jù)所述至少兩路目標語音的幅度譜,確定所述目標混合語音在特征域內(nèi)存在目標純凈語音的預(yù)測概率;
根據(jù)所述預(yù)測概率、所述至少兩路目標語音的幅度譜和相位譜,進行子帶合成處理,得到所述目標混合語音中的目標純凈語音;
其中,所述根據(jù)所述至少兩路目標語音的幅度譜,確定所述目標混合語音在特征域內(nèi)存在目標純凈語音的預(yù)測概率,包括:
將所述至少兩路目標語音的幅度譜輸入到語音增強模型中,得到所述目標混合語音在特征域內(nèi)存在目標純凈語音的預(yù)測概率;其中,所述語音增強模型包括:卷積神經(jīng)網(wǎng)絡(luò)、時間卷積網(wǎng)絡(luò)、全連接網(wǎng)絡(luò)和激活網(wǎng)絡(luò);其中,所述卷積神經(jīng)網(wǎng)絡(luò)用于對輸入的各路目標語音信號的幅度譜進行相關(guān)性解析,得到純凈語音、噪聲和回聲的幅度譜間初步的相關(guān)性特征,并將所述初步的相關(guān)性特征輸入時間卷積網(wǎng)絡(luò),所述時間卷積網(wǎng)絡(luò)用于結(jié)合時間特征,從初步的相關(guān)性特征中抽象出純凈語音、噪聲和回聲的幅度譜間最終的相關(guān)性特征,并將所述最終的相關(guān)性特征輸入全連接網(wǎng)絡(luò)。
2.根據(jù)權(quán)利要求1所述的方法,其中,所述對至少兩路目標語音進行子帶分解處理,得到所述至少兩路目標語音的幅度譜和相位譜,包括:
對至少兩路目標語音進行子帶分解處理,得到所述至少兩路目標語音的虛數(shù)信號;
根據(jù)所述至少兩路目標語音的虛數(shù)信號,確定所述至少兩路目標語音的幅度譜和相位譜。
3.根據(jù)權(quán)利要求1或2所述的方法,還包括:
基于對數(shù)處理和/或歸一化處理,更新所述至少兩路目標語音的幅度譜。
4.根據(jù)權(quán)利要求1所述的方法,其中,所述語音增強模型是基于訓練樣本通過有監(jiān)督訓練得到,所述訓練樣本包括:基于麥克風指向性生成的樣本純凈語音、樣本干擾語音,以及對所述樣本純凈語音混入不同類型噪聲和/或回聲的樣本混合語音。
5.根據(jù)權(quán)利要求1所述的方法,其中,所述根據(jù)所述預(yù)測概率、所述至少兩路目標語音的幅度譜和相位譜,進行子帶合成處理,得到所述目標混合語音中的目標純凈語音,包括:
根據(jù)所述預(yù)測概率和所述目標混合語音的幅度譜,確定目標純凈語音的幅度譜;
對所述目標純凈語音的幅度譜和所述目標混合語音的相位譜進行子帶合成處理,得到目標純凈語音。
6.根據(jù)權(quán)利要求1所述的方法,其中,所述至少兩路目標語音還包括:初步對所述目標混合語音進行回聲和/或噪聲消除后的預(yù)處理語音;
根據(jù)所述預(yù)測概率、所述至少兩路目標語音的幅度譜和相位譜,進行子帶合成處理,得到所述目標混合語音中的目標純凈語音,包括:
根據(jù)所述預(yù)測概率、所述預(yù)處理語音的幅度譜和相位譜,進行子帶合成處理,得到所述目標混合語音中的目標純凈語音。
7.一種語音增強裝置,包括:
子帶分解模塊,用于對至少兩路目標語音進行子帶分解處理,得到所述至少兩路目標語音的幅度譜和相位譜;其中,所述至少兩路目標語音包括:目標混合語音和目標干擾語音;
概率預(yù)測模塊,用于根據(jù)所述至少兩路目標語音的幅度譜,確定所述目標混合語音在特征域內(nèi)存在目標純凈語音的預(yù)測概率;
子帶合成模塊,用于根據(jù)所述預(yù)測概率、所述至少兩路目標語音的幅度譜和相位譜,進行子帶合成處理,得到所述目標混合語音中的目標純凈語音;
其中,所述概率預(yù)測模塊,具體用于:
將所述至少兩路目標語音的幅度譜輸入到語音增強模型中,得到所述目標混合語音在特征域內(nèi)存在目標純凈語音的預(yù)測概率;其中,所述語音增強模型包括:卷積神經(jīng)網(wǎng)絡(luò)、時間卷積網(wǎng)絡(luò)、全連接網(wǎng)絡(luò)和激活網(wǎng)絡(luò);其中,所述卷積神經(jīng)網(wǎng)絡(luò)用于對輸入的各路目標語音信號的幅度譜進行相關(guān)性解析,得到純凈語音、噪聲和回聲的幅度譜間初步的相關(guān)性特征,并將所述初步的相關(guān)性特征輸入時間卷積網(wǎng)絡(luò),所述時間卷積網(wǎng)絡(luò)用于結(jié)合時間特征,從初步的相關(guān)性特征中抽象出純凈語音、噪聲和回聲的幅度譜間最終的相關(guān)性特征,并將所述最終的相關(guān)性特征輸入全連接網(wǎng)絡(luò)。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于北京百度網(wǎng)訊科技有限公司,未經(jīng)北京百度網(wǎng)訊科技有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202111521637.1/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。





