[發(fā)明專利]一種基于時間延遲直方圖的語音分離方法有效

申請?zhí)枺?/td>	201710001937.4	申請日：	2017-01-03
公開（公告）號：	CN108269583B	公開（公告）日：	2021-07-30
發(fā)明（設(shè)計）人：	應(yīng)冬文;黃兆瓊;潘接林;顏永紅	申請（專利權(quán)）人：	中國科學(xué)院聲學(xué)研究所
主分類號：	G10L21/0272	分類號：	G10L21/0272;G10L21/0308;G10L25/03
代理公司：	北京方安思達知識產(chǎn)權(quán)代理有限公司 11472	代理人：	王宇楊;楊青
地址：	100190 ***	國省代碼：	北京;11
權(quán)利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關(guān)鍵詞：	一種基于時間延遲直方圖語音分離方法
鉆瓜網(wǎng) 技術(shù)展會專利詞庫專利權(quán)人專利榜在售專利公布日期熱門專利

【說明書】：

本發(fā)明涉及一種基于時間延遲直方圖的語音分離方法，包括：將聲源信號轉(zhuǎn)換成數(shù)字聲音信號；提取數(shù)字聲音信號的頻譜；利用聲源信號中所有時頻點上的時間延遲來構(gòu)建時間延遲直方圖，抽取顯著峰值作為時間延遲的估計值；利用時間延遲的估計值來計算每個語音源的波達方向估計值；利用每個語音源的波達方向估計值對混合語音的頻譜進行分類，得到每個語音源的掩摸，進而根據(jù)該掩摸以及數(shù)字聲音信號的頻譜計算頻域上的分離信號；在每個掩摸上對頻域的分離信號進行傅里葉逆變換，得到分離的語音。

技術(shù)領(lǐng)域

本發(fā)明涉及語音分離方法，特別涉及一種基于時間延遲直方圖的語音分離方法。

背景技術(shù)

語音分離包括單通道語音分離和多通道語音分離，語音分離技術(shù)可減小噪聲和混響的影響，或?qū)⒍鄠€語音源分離開，為后續(xù)的信息處理提供較干凈的語音。

由于時間延遲直方圖具有高空間分辨力和抗混疊的優(yōu)點，時間延遲直方圖被廣泛應(yīng)用于線性陣列進行語音分離。然而，傳統(tǒng)的方法很少將時間延遲直方圖用于平面陣列來進行語音分離。同時，傳統(tǒng)的語音分離方法往往需要預(yù)知語音源的個數(shù)才能進行分離，另外，傳統(tǒng)的盲源分離方法都有排序模糊性的問題。

發(fā)明內(nèi)容

本發(fā)明的目的在于克服現(xiàn)有技術(shù)中的語音分離方法中需要預(yù)知聲源個數(shù)和排序模糊性的缺陷，從而利用時間延遲直方圖提出一種魯棒而高效的語音分離方法。

為了實現(xiàn)上述目的，本發(fā)明提供了一種基于時間延遲直方圖的語音分離方法，包括：

步驟1)、將聲源信號轉(zhuǎn)換成數(shù)字聲音信號；

步驟2)、提取步驟1)所得到的數(shù)字聲音信號的頻譜；

步驟3)、利用聲源信號中所有時頻點上的時間延遲來構(gòu)建時間延遲直方圖，抽取顯著峰值作為時間延遲的估計值；

步驟4)、利用步驟3)得到的時間延遲的估計值來計算每個語音源的波達方向估計值；

步驟5)、利用步驟4)得到的每個語音源的波達方向估計值對混合語音的頻譜進行分類，得到每個語音源的掩摸，進而根據(jù)該掩摸以及步驟2)得到的數(shù)字聲音信號的頻譜計算頻域上的分離信號；

步驟6)、在每個掩摸上對步驟5)得到的頻域的分離信號進行傅里葉逆變換，得到分離的語音。

上述技術(shù)方案中，所述步驟2)還包括：在提取步驟1)所得到的數(shù)字聲音信號的頻譜之前，對所述數(shù)字聲音信號進行預(yù)處理，所述預(yù)處理包括：

對每一幀的數(shù)字聲音信號先補零到N點，N＝2ⁱ，i為整數(shù)，且i≥8；然后，對每一幀的數(shù)字聲音信號進行加窗或預(yù)加重處理，加窗函數(shù)采用漢明窗或哈寧窗。

上述技術(shù)方案中，所述步驟3)包括：

步驟3-1)、計算聲音源中任意兩個麥克風(fēng)所組成的麥克風(fēng)對的時間延遲；

步驟3-2)、由麥克風(fēng)對的距離約束以及步驟3-1)得到的麥克風(fēng)對的時間延遲，得到時間延遲集合；

步驟3-3)、基于步驟3-2)所得到的時間延遲集合構(gòu)建時間延遲直方圖，抽取顯著峰值作為時間延遲的估計值。

上述技術(shù)方案中，所述步驟4)包括：

步驟4-1)、利用步驟3)得到的來自不同麥克風(fēng)對的時間延遲估計值兩兩配對估計出波達方向候選值；

步驟4-2)、由步驟4-1)所得到的波達方向候選值估計方向角候選值，利用所有的方向角候選值組成的集合中的所有元素構(gòu)建方向角直方圖；

步驟4-3)、抽取方向角直方圖中的顯著峰值作為每個語音源的方向角估計值，通過數(shù)峰值的數(shù)目得到語音源數(shù)目的估計值；

步驟4-4)、由步驟4-3)得到的語音源的方向角估計值計算仰角初始值；

下載完整專利技術(shù)內(nèi)容需要扣除積分，VIP會員可以免費下載。

免登錄下載普通用戶下載升級VIP會員，免費下載

該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息，商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于中國科學(xué)院聲學(xué)研究所，未經(jīng)中國科學(xué)院聲學(xué)研究所許可，擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作，請聯(lián)系【客服】

本文鏈接：http://www.szxzyx.cn/pat/books/201710001937.4/2.html，轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。

同類專利

專利分類

G 物理

G10 樂器；聲學(xué)
G10L 語音分析或合成；語音識別；音頻分析或處理
G10L21-00 為了改變語音信號的質(zhì)量或其可識度而處理語音信號，以產(chǎn)生另一種可聽的或非可聽的信號，例如視覺信號或觸覺信號
G10L21-02 .語音增強，例如降低噪聲或消除回聲
G10L21-04 .時間壓縮或擴展
G10L21-06 .將語音轉(zhuǎn)換成非可聽表達形式，例如語音可視化、觸覺輔助的語音處理

免登錄下載普通用戶下載升級VIP會員，免費下載

專利文獻下載

說明：

1、專利原文基于中國國家知識產(chǎn)權(quán)局專利說明書；

2、支持發(fā)明專利、實用新型專利、外觀設(shè)計專利（升級中）；

3、專利數(shù)據(jù)每周兩次同步更新，支持Adobe PDF格式；

4、內(nèi)容包括專利技術(shù)的結(jié)構(gòu)示意圖、流程工藝圖或技術(shù)構(gòu)造圖；

5、已全新升級為極速版,下載速度顯著提升！歡迎使用！

請您登陸后，進行下載，點擊【登陸】【注冊】