[發明專利]音頻信號的掩蔽閾值估計方法、裝置及存儲介質有效
| 申請號: | 201810949209.0 | 申請日: | 2018-08-20 |
| 公開(公告)號: | CN108899047B | 公開(公告)日: | 2019-09-10 |
| 發明(設計)人: | 李超;朱唯鑫 | 申請(專利權)人: | 百度在線網絡技術(北京)有限公司 |
| 主分類號: | G10L25/30 | 分類號: | G10L25/30;G10L25/78;G10L25/84;G10L21/0208;G10L21/0272 |
| 代理公司: | 北京市鑄成律師事務所 11313 | 代理人: | 王珺;陳建煥 |
| 地址: | 100085 北京市*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 掩蔽 神經網絡模型 處理音頻信號 音頻信號 音素類別 閾值估計 輸出 計算機可讀存儲介質 樣本音頻信號 標簽訓練 存儲介質 聲學特征 網絡學習 音素 標簽 優化 | ||
1.一種音頻信號的掩蔽閾值估計方法,其特征在于,包括:
將待處理音頻信號輸入多任務的神經網絡模型,所述神經網絡模型是利用樣本音頻信號的聲學特征、音素類別的標簽和掩蔽閾值的標簽訓練得到的;
從所述神經網絡模型輸出所述待處理音頻信號的音素類別和所述待處理音頻信號的掩蔽閾值;
利用所述音素類別和所述掩蔽閾值對所述神經網絡模型進行優化。
2.根據權利要求1所述的方法,其特征在于,還包括根據所述待處理音頻信號的掩蔽閾值,采用以下公式對所述待處理音頻信號進行去噪處理:
estimate=h_mask.*noisy
其中,noisy表示噪聲的聲學特征;estimate表示干凈語音的聲學特征的估計值;h_mask表示所述神經網絡模型輸出的掩蔽閾值。
3.根據權利要求1或2所述的方法,其特征在于,所述神經網絡模型的輸入特征包括音頻信號的FFT幅值譜。
4.根據權利要求1或2所述的方法,其特征在于,所述神經網絡模型包括輸入子網、分裂層、用于音素類別輸出的任務子網和用于掩蔽閾值輸出的任務子網;所述分裂層用于將經過所述輸入子網處理后的輸入特征復制成兩份,分別輸出給所述用于音素類別輸出的任務子網和所述用于掩蔽閾值輸出的任務子網。
5.根據權利要求4所述的方法,其特征在于,所述用于掩蔽閾值輸出的任務子網包括掩蔽閾值輸出層;
所述掩蔽閾值輸出層設置為全連接層;
采用sigmoid函數作為所述掩蔽閾值輸出層的激活函數。
6.根據權利要求4所述的方法,其特征在于,所述用于音素類別輸出的任務子網包括音素類別輸出層;
所述音素類別輸出層設置為全連接層;
采用softmax函數作為所述音素類別輸出層的激活函數;
采用交叉熵作為所述音素類別輸出層的損失函數。
7.根據權利要求1或2所述的方法,其特征在于,還包括采用以下公式計算所述掩蔽閾值的標簽:
其中,t表示時間的標度;f表示頻域點的標號;表示第(t,f)時頻點的干凈語音的功率;表示第(t,f)時頻點的帶噪聲的語音的功率。
8.根據權利要求1或2所述的方法,其特征在于,還包括:
采用HMM-GMM模型將音頻信號和音素類別對齊,識別出音頻信號中的聲母和韻母;
將識別出的聲母和韻母作為音素類別的標簽。
9.一種音頻信號的掩蔽閾值估計裝置,其特征在于,包括:
輸入單元,用于將待處理音頻信號輸入多任務的神經網絡模型,所述神經網絡模型是利用樣本音頻信號的聲學特征、音素類別的標簽和掩蔽閾值的標簽訓練得到的;
輸出單元,用于從所述神經網絡模型輸出所述待處理音頻信號的音素類別和所述待處理音頻信號的掩蔽閾值;
優化單元,用于利用所述音素類別和所述掩蔽閾值對所述神經網絡模型進行優化。
10.根據權利要求9所述的裝置,其特征在于,還包括去噪處理單元,用于根據所述待處理音頻信號的掩蔽閾值,采用以下公式對所述待處理音頻信號進行去噪處理:
estimate=h_mask.*noisy
其中,noisy表示噪聲的聲學特征;estimate表示干凈語音的聲學特征的估計值;h_mask表示所述神經網絡模型輸出的掩蔽閾值。
11.根據權利要求9或10所述的裝置,其特征在于,所述神經網絡模型的輸入特征包括音頻信號的FFT幅值譜。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于百度在線網絡技術(北京)有限公司,未經百度在線網絡技術(北京)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810949209.0/1.html,轉載請聲明來源鉆瓜專利網。





