[發(fā)明專利]音頻信號處理方法、設(shè)備、系統(tǒng)及存儲介質(zhì)在審

申請?zhí)枺?/td>	202110235834.0	申請日：	2021-03-03
公開（公告）號：	CN115019826A	公開（公告）日：	2022-09-06
發(fā)明（設(shè)計）人：	鄭斯奇;索宏彬	申請（專利權(quán)）人：	阿里巴巴（中國）有限公司
主分類號：	G10L25/51	分類號：	G10L25/51
代理公司：	北京太合九思知識產(chǎn)權(quán)代理有限公司 11610	代理人：	劉戈;張愛
地址：	310052 浙江省杭州市濱江***	國省代碼：	浙江;33
權(quán)利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關(guān)鍵詞：	音頻信號處理方法設(shè)備系統(tǒng) 存儲介質(zhì)
鉆瓜網(wǎng) 技術(shù)展會專利詞庫專利權(quán)人專利榜在售專利公布日期熱門專利

【權(quán)利要求書】：

1.一種音頻信號處理方法，其特征在于，包括：

獲取麥克風(fēng)陣列采集到的當(dāng)前音頻信號，所述麥克風(fēng)陣列包含至少兩個麥克風(fēng)；

根據(jù)所述至少兩個麥克風(fēng)采集到當(dāng)前音頻信號的相位差信息，生成當(dāng)前音頻信號對應(yīng)的當(dāng)前聲源空間分布信息；

根據(jù)所述當(dāng)前聲源空間分布信息，結(jié)合基于歷史音頻信號學(xué)習(xí)到的單一語音與重疊語音之間的轉(zhuǎn)換關(guān)系，識別當(dāng)前音頻信號是否為重疊語音。

2.根據(jù)權(quán)利要求1所述的方法，其特征在于，根據(jù)所述至少兩個麥克風(fēng)采集到當(dāng)前音頻信號的相位差信息，生成當(dāng)前音頻信號對應(yīng)的當(dāng)前聲源空間分布信息，包括：

根據(jù)所述至少兩個麥克風(fēng)采集到當(dāng)前音頻信號的相位差信息，計算當(dāng)前音頻信號對應(yīng)的波達(dá)譜圖，所述波達(dá)譜圖反應(yīng)當(dāng)前聲源在空間上的分布情況。

3.根據(jù)權(quán)利要求2所述的方法，其特征在于，根據(jù)所述至少兩個麥克風(fēng)采集到當(dāng)前音頻信號的相位差信息，計算當(dāng)前音頻信號對應(yīng)的波達(dá)譜圖，包括：

針對位置空間中的任一方位，對任意兩個麥克風(fēng)采集到當(dāng)前音頻信號的相位差信息進(jìn)行累加，得到所述方位作為當(dāng)前聲源位置的概率；

根據(jù)所述位置空間中各方位作為當(dāng)前聲源位置的概率，生成當(dāng)前音頻信號對應(yīng)的波達(dá)譜圖。

4.根據(jù)權(quán)利要求1-3任一項所述的方法，其特征在于，根據(jù)所述當(dāng)前聲源空間分布信息，結(jié)合基于歷史音頻信號學(xué)習(xí)到的單一語音與重疊語音之間的轉(zhuǎn)換關(guān)系，識別當(dāng)前音頻信號是否為重疊語音，包括：

計算所述當(dāng)前聲源空間分布信息的峰值信息，作為隱馬爾科夫模型HMM的當(dāng)前觀測狀態(tài)，并將單一語音與重疊語音作為HMM的兩個隱藏狀態(tài)；

將當(dāng)前觀測狀態(tài)輸入HMM，結(jié)合HMM學(xué)習(xí)到的兩個隱藏狀態(tài)之間的跳轉(zhuǎn)關(guān)系，以歷史觀測狀態(tài)為前提條件，計算當(dāng)前觀測狀態(tài)對應(yīng)隱藏狀態(tài)的概率；

根據(jù)所述當(dāng)前觀測狀態(tài)對應(yīng)隱藏狀態(tài)的概率，識別當(dāng)前音頻信號是否為重疊語音。

5.根據(jù)權(quán)利要求1-3任一項所述的方法，其特征在于，還包括：

若識別到當(dāng)前音頻信號為重疊語音，則根據(jù)所述當(dāng)前聲源空間分布信息，確定至少兩個有效聲源方位；

對所述至少兩個有效聲源方位上的音頻信號進(jìn)行語音增強(qiáng)，并對所述至少兩個有效聲源方位上增強(qiáng)后的音頻信號分別進(jìn)行語音識別。

6.根據(jù)權(quán)利要求5所述的方法，其特征在于，根據(jù)所述當(dāng)前聲源空間分布信息，確定至少兩個有效聲源方位，包括：

在所述當(dāng)前聲源空間分布信息包括各方位作為當(dāng)前聲源位置的概率的情況下，將作為當(dāng)前聲源位置的概率最大的兩個方位作為有效聲源方位。

7.根據(jù)權(quán)利要求6所述的方法，其特征在于，還包括：

若識別到當(dāng)前音頻信號為單一語音，則將作為當(dāng)前聲源位置的概率最大的一個方位作為有效聲源方位；

對所述有效聲源方位上的音頻信號進(jìn)行語音增強(qiáng)，并對所述有效聲源方位上增強(qiáng)后的音頻信號進(jìn)行語音識別。

8.根據(jù)權(quán)利要求1-3任一項所述的方法，其特征在于，在識別當(dāng)前音頻信號是否為重疊語音之前，還包括：

根據(jù)所述當(dāng)前的聲源空間分布信息，計算當(dāng)前音頻信號的波達(dá)方向；

根據(jù)所述波達(dá)方向，從所述至少兩個麥克風(fēng)中選擇一路麥克風(fēng)作為目標(biāo)麥克風(fēng)；

對所述目標(biāo)麥克風(fēng)采集到的當(dāng)前音頻信號進(jìn)行語音端點檢測VAD，以得到當(dāng)前音頻信號是否為語音信號。

9.一種音頻信號處理方法，其特征在于，適用于會議設(shè)備，所述會議設(shè)備包括麥克風(fēng)陣列，所述方法包括：

獲取所述麥克風(fēng)陣列在會議場景中采集到的當(dāng)前會議信號，所述麥克風(fēng)陣列包含至少兩個麥克風(fēng)；

根據(jù)所述至少兩個麥克風(fēng)采集到當(dāng)前會議信號的相位差信息，生成當(dāng)前會議信號對應(yīng)的當(dāng)前聲源空間分布信息；

根據(jù)所述當(dāng)前聲源空間分布信息，結(jié)合基于歷史會議信號學(xué)習(xí)到的單一語音與重疊語音之間的轉(zhuǎn)換關(guān)系，識別當(dāng)前會議信號是否為重疊語音。

下載完整專利技術(shù)內(nèi)容需要扣除積分，VIP會員可以免費下載。

免登錄下載普通用戶下載升級VIP會員，免費下載

該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息，商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于阿里巴巴（中國）有限公司，未經(jīng)阿里巴巴（中國）有限公司許可，擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作，請聯(lián)系【客服】

本文鏈接：http://www.szxzyx.cn/pat/books/202110235834.0/1.html，轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。

上一篇：一種加長高圍擋溢流蓄排水控制井及蓄排方法
下一篇：一種智能教學(xué)系統(tǒng)

同類專利

專利分類

G 物理

G10 樂器；聲學(xué)
G10L 語音分析或合成；語音識別；音頻分析或處理

免登錄下載普通用戶下載升級VIP會員，免費下載

專利文獻(xiàn)下載

說明：

1、專利原文基于中國國家知識產(chǎn)權(quán)局專利說明書；

2、支持發(fā)明專利、實用新型專利、外觀設(shè)計專利（升級中）；

3、專利數(shù)據(jù)每周兩次同步更新，支持Adobe PDF格式；

4、內(nèi)容包括專利技術(shù)的結(jié)構(gòu)示意圖、流程工藝圖或技術(shù)構(gòu)造圖；

5、已全新升級為極速版,下載速度顯著提升！歡迎使用！

請您登陸后，進(jìn)行下載，點擊【登陸】【注冊】