[發(fā)明專利]音頻信號處理方法、設(shè)備、系統(tǒng)及存儲介質(zhì)在審
| 申請?zhí)枺?/td> | 202110235834.0 | 申請日: | 2021-03-03 |
| 公開(公告)號: | CN115019826A | 公開(公告)日: | 2022-09-06 |
| 發(fā)明(設(shè)計)人: | 鄭斯奇;索宏彬 | 申請(專利權(quán))人: | 阿里巴巴(中國)有限公司 |
| 主分類號: | G10L25/51 | 分類號: | G10L25/51 |
| 代理公司: | 北京太合九思知識產(chǎn)權(quán)代理有限公司 11610 | 代理人: | 劉戈;張愛 |
| 地址: | 310052 浙江省杭州市濱江*** | 國省代碼: | 浙江;33 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 音頻 信號 處理 方法 設(shè)備 系統(tǒng) 存儲 介質(zhì) | ||
1.一種音頻信號處理方法,其特征在于,包括:
獲取麥克風(fēng)陣列采集到的當(dāng)前音頻信號,所述麥克風(fēng)陣列包含至少兩個麥克風(fēng);
根據(jù)所述至少兩個麥克風(fēng)采集到當(dāng)前音頻信號的相位差信息,生成當(dāng)前音頻信號對應(yīng)的當(dāng)前聲源空間分布信息;
根據(jù)所述當(dāng)前聲源空間分布信息,結(jié)合基于歷史音頻信號學(xué)習(xí)到的單一語音與重疊語音之間的轉(zhuǎn)換關(guān)系,識別當(dāng)前音頻信號是否為重疊語音。
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,根據(jù)所述至少兩個麥克風(fēng)采集到當(dāng)前音頻信號的相位差信息,生成當(dāng)前音頻信號對應(yīng)的當(dāng)前聲源空間分布信息,包括:
根據(jù)所述至少兩個麥克風(fēng)采集到當(dāng)前音頻信號的相位差信息,計算當(dāng)前音頻信號對應(yīng)的波達(dá)譜圖,所述波達(dá)譜圖反應(yīng)當(dāng)前聲源在空間上的分布情況。
3.根據(jù)權(quán)利要求2所述的方法,其特征在于,根據(jù)所述至少兩個麥克風(fēng)采集到當(dāng)前音頻信號的相位差信息,計算當(dāng)前音頻信號對應(yīng)的波達(dá)譜圖,包括:
針對位置空間中的任一方位,對任意兩個麥克風(fēng)采集到當(dāng)前音頻信號的相位差信息進(jìn)行累加,得到所述方位作為當(dāng)前聲源位置的概率;
根據(jù)所述位置空間中各方位作為當(dāng)前聲源位置的概率,生成當(dāng)前音頻信號對應(yīng)的波達(dá)譜圖。
4.根據(jù)權(quán)利要求1-3任一項所述的方法,其特征在于,根據(jù)所述當(dāng)前聲源空間分布信息,結(jié)合基于歷史音頻信號學(xué)習(xí)到的單一語音與重疊語音之間的轉(zhuǎn)換關(guān)系,識別當(dāng)前音頻信號是否為重疊語音,包括:
計算所述當(dāng)前聲源空間分布信息的峰值信息,作為隱馬爾科夫模型HMM的當(dāng)前觀測狀態(tài),并將單一語音與重疊語音作為HMM的兩個隱藏狀態(tài);
將當(dāng)前觀測狀態(tài)輸入HMM,結(jié)合HMM學(xué)習(xí)到的兩個隱藏狀態(tài)之間的跳轉(zhuǎn)關(guān)系,以歷史觀測狀態(tài)為前提條件,計算當(dāng)前觀測狀態(tài)對應(yīng)隱藏狀態(tài)的概率;
根據(jù)所述當(dāng)前觀測狀態(tài)對應(yīng)隱藏狀態(tài)的概率,識別當(dāng)前音頻信號是否為重疊語音。
5.根據(jù)權(quán)利要求1-3任一項所述的方法,其特征在于,還包括:
若識別到當(dāng)前音頻信號為重疊語音,則根據(jù)所述當(dāng)前聲源空間分布信息,確定至少兩個有效聲源方位;
對所述至少兩個有效聲源方位上的音頻信號進(jìn)行語音增強(qiáng),并對所述至少兩個有效聲源方位上增強(qiáng)后的音頻信號分別進(jìn)行語音識別。
6.根據(jù)權(quán)利要求5所述的方法,其特征在于,根據(jù)所述當(dāng)前聲源空間分布信息,確定至少兩個有效聲源方位,包括:
在所述當(dāng)前聲源空間分布信息包括各方位作為當(dāng)前聲源位置的概率的情況下,將作為當(dāng)前聲源位置的概率最大的兩個方位作為有效聲源方位。
7.根據(jù)權(quán)利要求6所述的方法,其特征在于,還包括:
若識別到當(dāng)前音頻信號為單一語音,則將作為當(dāng)前聲源位置的概率最大的一個方位作為有效聲源方位;
對所述有效聲源方位上的音頻信號進(jìn)行語音增強(qiáng),并對所述有效聲源方位上增強(qiáng)后的音頻信號進(jìn)行語音識別。
8.根據(jù)權(quán)利要求1-3任一項所述的方法,其特征在于,在識別當(dāng)前音頻信號是否為重疊語音之前,還包括:
根據(jù)所述當(dāng)前的聲源空間分布信息,計算當(dāng)前音頻信號的波達(dá)方向;
根據(jù)所述波達(dá)方向,從所述至少兩個麥克風(fēng)中選擇一路麥克風(fēng)作為目標(biāo)麥克風(fēng);
對所述目標(biāo)麥克風(fēng)采集到的當(dāng)前音頻信號進(jìn)行語音端點檢測VAD,以得到當(dāng)前音頻信號是否為語音信號。
9.一種音頻信號處理方法,其特征在于,適用于會議設(shè)備,所述會議設(shè)備包括麥克風(fēng)陣列,所述方法包括:
獲取所述麥克風(fēng)陣列在會議場景中采集到的當(dāng)前會議信號,所述麥克風(fēng)陣列包含至少兩個麥克風(fēng);
根據(jù)所述至少兩個麥克風(fēng)采集到當(dāng)前會議信號的相位差信息,生成當(dāng)前會議信號對應(yīng)的當(dāng)前聲源空間分布信息;
根據(jù)所述當(dāng)前聲源空間分布信息,結(jié)合基于歷史會議信號學(xué)習(xí)到的單一語音與重疊語音之間的轉(zhuǎn)換關(guān)系,識別當(dāng)前會議信號是否為重疊語音。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于阿里巴巴(中國)有限公司,未經(jīng)阿里巴巴(中國)有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110235834.0/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 信號調(diào)制方法、信號調(diào)制裝置、信號解調(diào)方法和信號解調(diào)裝置
- 亮度信號/色信號分離裝置和亮度信號/色信號分離方法
- 信號調(diào)制方法、信號調(diào)制裝置、信號解調(diào)方法和信號解調(diào)裝置
- 信號調(diào)制方法、信號調(diào)制裝置、信號解調(diào)方法和信號解調(diào)裝置
- 雙耳信號的信號生成
- 雙耳信號的信號生成
- 信號處理裝置、信號處理方法、信號處理程序
- USBTYPEC信號轉(zhuǎn)HDMI信號的信號轉(zhuǎn)換線
- 信號盒(信號轉(zhuǎn)換)
- 信號調(diào)制方法、信號調(diào)制裝置、信號解調(diào)方法和信號解調(diào)裝置





