[發(fā)明專利]一種基于時間延遲直方圖的語音分離方法有效
| 申請?zhí)枺?/td> | 201710001937.4 | 申請日: | 2017-01-03 |
| 公開(公告)號: | CN108269583B | 公開(公告)日: | 2021-07-30 |
| 發(fā)明(設(shè)計)人: | 應(yīng)冬文;黃兆瓊;潘接林;顏永紅 | 申請(專利權(quán))人: | 中國科學(xué)院聲學(xué)研究所 |
| 主分類號: | G10L21/0272 | 分類號: | G10L21/0272;G10L21/0308;G10L25/03 |
| 代理公司: | 北京方安思達知識產(chǎn)權(quán)代理有限公司 11472 | 代理人: | 王宇楊;楊青 |
| 地址: | 100190 *** | 國省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 時間 延遲 直方圖 語音 分離 方法 | ||
本發(fā)明涉及一種基于時間延遲直方圖的語音分離方法,包括:將聲源信號轉(zhuǎn)換成數(shù)字聲音信號;提取數(shù)字聲音信號的頻譜;利用聲源信號中所有時頻點上的時間延遲來構(gòu)建時間延遲直方圖,抽取顯著峰值作為時間延遲的估計值;利用時間延遲的估計值來計算每個語音源的波達方向估計值;利用每個語音源的波達方向估計值對混合語音的頻譜進行分類,得到每個語音源的掩摸,進而根據(jù)該掩摸以及數(shù)字聲音信號的頻譜計算頻域上的分離信號;在每個掩摸上對頻域的分離信號進行傅里葉逆變換,得到分離的語音。
技術(shù)領(lǐng)域
本發(fā)明涉及語音分離方法,特別涉及一種基于時間延遲直方圖的語音分離方法。
背景技術(shù)
語音分離包括單通道語音分離和多通道語音分離,語音分離技術(shù)可減小噪聲和混響的影響,或?qū)⒍鄠€語音源分離開,為后續(xù)的信息處理提供較干凈的語音。
由于時間延遲直方圖具有高空間分辨力和抗混疊的優(yōu)點,時間延遲直方圖被廣泛應(yīng)用于線性陣列進行語音分離。然而,傳統(tǒng)的方法很少將時間延遲直方圖用于平面陣列來進行語音分離。同時,傳統(tǒng)的語音分離方法往往需要預(yù)知語音源的個數(shù)才能進行分離,另外,傳統(tǒng)的盲源分離方法都有排序模糊性的問題。
發(fā)明內(nèi)容
本發(fā)明的目的在于克服現(xiàn)有技術(shù)中的語音分離方法中需要預(yù)知聲源個數(shù)和排序模糊性的缺陷,從而利用時間延遲直方圖提出一種魯棒而高效的語音分離方法。
為了實現(xiàn)上述目的,本發(fā)明提供了一種基于時間延遲直方圖的語音分離方法,包括:
步驟1)、將聲源信號轉(zhuǎn)換成數(shù)字聲音信號;
步驟2)、提取步驟1)所得到的數(shù)字聲音信號的頻譜;
步驟3)、利用聲源信號中所有時頻點上的時間延遲來構(gòu)建時間延遲直方圖,抽取顯著峰值作為時間延遲的估計值;
步驟4)、利用步驟3)得到的時間延遲的估計值來計算每個語音源的波達方向估計值;
步驟5)、利用步驟4)得到的每個語音源的波達方向估計值對混合語音的頻譜進行分類,得到每個語音源的掩摸,進而根據(jù)該掩摸以及步驟2)得到的數(shù)字聲音信號的頻譜計算頻域上的分離信號;
步驟6)、在每個掩摸上對步驟5)得到的頻域的分離信號進行傅里葉逆變換,得到分離的語音。
上述技術(shù)方案中,所述步驟2)還包括:在提取步驟1)所得到的數(shù)字聲音信號的頻譜之前,對所述數(shù)字聲音信號進行預(yù)處理,所述預(yù)處理包括:
對每一幀的數(shù)字聲音信號先補零到N點,N=2i,i為整數(shù),且i≥8;然后,對每一幀的數(shù)字聲音信號進行加窗或預(yù)加重處理,加窗函數(shù)采用漢明窗或哈寧窗。
上述技術(shù)方案中,所述步驟3)包括:
步驟3-1)、計算聲音源中任意兩個麥克風(fēng)所組成的麥克風(fēng)對的時間延遲;
步驟3-2)、由麥克風(fēng)對的距離約束以及步驟3-1)得到的麥克風(fēng)對的時間延遲,得到時間延遲集合;
步驟3-3)、基于步驟3-2)所得到的時間延遲集合構(gòu)建時間延遲直方圖,抽取顯著峰值作為時間延遲的估計值。
上述技術(shù)方案中,所述步驟4)包括:
步驟4-1)、利用步驟3)得到的來自不同麥克風(fēng)對的時間延遲估計值兩兩配對估計出波達方向候選值;
步驟4-2)、由步驟4-1)所得到的波達方向候選值估計方向角候選值,利用所有的方向角候選值組成的集合中的所有元素構(gòu)建方向角直方圖;
步驟4-3)、抽取方向角直方圖中的顯著峰值作為每個語音源的方向角估計值,通過數(shù)峰值的數(shù)目得到語音源數(shù)目的估計值;
步驟4-4)、由步驟4-3)得到的語音源的方向角估計值計算仰角初始值;
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于中國科學(xué)院聲學(xué)研究所,未經(jīng)中國科學(xué)院聲學(xué)研究所許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710001937.4/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。





