[發(fā)明專利]一種語音特征處理方法、裝置、電子設(shè)備及存儲介質(zhì)有效
| 申請?zhí)枺?/td> | 202110290322.4 | 申請日: | 2021-03-18 |
| 公開(公告)號: | CN112735397B | 公開(公告)日: | 2021-07-23 |
| 發(fā)明(設(shè)計(jì))人: | 谷悅;楊嵩;王莎 | 申請(專利權(quán))人: | 北京世紀(jì)好未來教育科技有限公司 |
| 主分類號: | G10L15/20 | 分類號: | G10L15/20;G10L21/0208 |
| 代理公司: | 上海知錦知識產(chǎn)權(quán)代理事務(wù)所(特殊普通合伙) 31327 | 代理人: | 王立娜 |
| 地址: | 100144 北京市海淀區(qū)中*** | 國省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 語音 特征 處理 方法 裝置 電子設(shè)備 存儲 介質(zhì) | ||
1.一種語音特征處理方法,其特征在于,包括:
從帶噪語音的語音特征中去除噪音的語音特征,得到純凈語音特征估計(jì);
對所述純凈語音特征估計(jì)進(jìn)行編碼處理,得到第一語音特征編碼信息,以及對所述帶噪語音的語音特征進(jìn)行編碼處理,得到第二語音特征編碼信息;
根據(jù)所述第一語音特征編碼信息以及所述第二語音特征編碼信息,得到用于解碼的目標(biāo)語音特征編碼信息;
其中,所述根據(jù)所述第一語音特征編碼信息以及所述第二語音特征編碼信息,得到用于解碼的目標(biāo)語音特征編碼信息包括:
基于神經(jīng)網(wǎng)絡(luò)確定混合系數(shù),所述混合系數(shù)用于表示第一語音特征編碼信息和第二語音特征編碼信息的相互混合程度;
根據(jù)所述混合系數(shù),將第一語音特征編碼信息與第二語音特征編碼信息進(jìn)行混合,得到所述目標(biāo)語音特征編碼信息。
2.根據(jù)權(quán)利要求1所述的語音特征處理方法,其特征在于,所述確定混合系數(shù)包括:
根據(jù)所述第一語音特征編碼信息與第二語音特征編碼信息,確定所述混合系數(shù)。
3.根據(jù)權(quán)利要求2所述的語音特征處理方法,其特征在于,所述根據(jù)所述第一語音特征編碼信息與第二語音特征編碼信息,確定所述第一語音特征編碼信息與第二語音特征編碼信息相互混合程度的混合系數(shù)包括:
將所述第一語音特征編碼信息和第二語音特征編碼信息輸入神經(jīng)網(wǎng)絡(luò),得到所述神經(jīng)網(wǎng)絡(luò)輸出的所述混合系數(shù);其中,所述神經(jīng)網(wǎng)絡(luò)以輸出結(jié)果與混合系數(shù)標(biāo)簽的誤差最小化為訓(xùn)練目標(biāo)而訓(xùn)練得到,所述混合系數(shù)標(biāo)簽為輸入所述神經(jīng)網(wǎng)絡(luò)的用于訓(xùn)練的第一語音特征編碼信息樣本和第二語音特征編碼信息樣本預(yù)先標(biāo)記的混合系數(shù)。
4.根據(jù)權(quán)利要求3所述的語音特征處理方法,其特征在于,所述混合系數(shù)為0至1的數(shù)值范圍。
5.根據(jù)權(quán)利要求1所述的語音特征處理方法,其特征在于,所述根據(jù)所述混合系數(shù),將第一語音特征編碼信息與第二語音特征編碼信息進(jìn)行混合,得到所述目標(biāo)語音特征編碼信息包括:
以混合系數(shù)為權(quán)重,對第一語音特征編碼信息進(jìn)行加權(quán)處理,得到第一語音特征編碼信息對應(yīng)的加權(quán)處理結(jié)果,及,以設(shè)定值與混合系數(shù)的差值為權(quán)重,對第二語音特征編碼信息進(jìn)行加權(quán)處理,得到第二語音特征編碼信息對應(yīng)的加權(quán)處理結(jié)果;
將第一語音特征編碼信息和第二語音特征編碼信息對應(yīng)的加權(quán)處理結(jié)果相加,得到所述目標(biāo)語音特征編碼信息。
6.根據(jù)權(quán)利要求1所述的語音特征處理方法,其特征在于,所述從帶噪語音的語音特征中去除噪音的語音特征,得到純凈語音特征估計(jì)包括:
將帶噪語音的語音特征輸入語音增強(qiáng)模型,以使所述語音增強(qiáng)模型對帶噪語音的語音特征進(jìn)行語音增強(qiáng)處理,得到所述純凈語音特征估計(jì)。
7.根據(jù)權(quán)利要求6所述的語音特征處理方法,其特征在于,所述語音增強(qiáng)模型以輸出的帶噪語音樣本的純凈語音特征估計(jì),與帶噪語音樣本的實(shí)際純凈語音特征的誤差最小化為訓(xùn)練目標(biāo)而訓(xùn)練得到。
8.根據(jù)權(quán)利要求1所述的語音特征處理方法,其特征在于,還包括:
根據(jù)所述目標(biāo)語音特征編碼信息,預(yù)測當(dāng)前所有語音建模單元的后驗(yàn)概率,得出聲學(xué)模型的輸出結(jié)果。
9.根據(jù)權(quán)利要求8所述的語音特征處理方法,其特征在于,所述根據(jù)所述目標(biāo)語音特征編碼信息,預(yù)測當(dāng)前所有語音建模單元的后驗(yàn)概率,得出聲學(xué)模型的輸出結(jié)果包括:
將所述目標(biāo)語音特征編碼信息輸入聲學(xué)模型的解碼器,以得到所述解碼器預(yù)測的當(dāng)前所有語音建模單元的后驗(yàn)概率,所述后驗(yàn)概率作為聲學(xué)模型的輸出結(jié)果。
10.根據(jù)權(quán)利要求9所述的語音特征處理方法,其特征在于,所述解碼器以輸出的帶噪語音樣本的各句子部分分別屬于各語音建模單元的概率,趨近于真實(shí)概率為訓(xùn)練目標(biāo)而訓(xùn)練得到。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于北京世紀(jì)好未來教育科技有限公司,未經(jīng)北京世紀(jì)好未來教育科技有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110290322.4/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。





