[發明專利]一種基于時間延遲直方圖的語音分離方法有效
| 申請號: | 201710001937.4 | 申請日: | 2017-01-03 |
| 公開(公告)號: | CN108269583B | 公開(公告)日: | 2021-07-30 |
| 發明(設計)人: | 應冬文;黃兆瓊;潘接林;顏永紅 | 申請(專利權)人: | 中國科學院聲學研究所 |
| 主分類號: | G10L21/0272 | 分類號: | G10L21/0272;G10L21/0308;G10L25/03 |
| 代理公司: | 北京方安思達知識產權代理有限公司 11472 | 代理人: | 王宇楊;楊青 |
| 地址: | 100190 *** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 時間 延遲 直方圖 語音 分離 方法 | ||
1.一種基于時間延遲直方圖的語音分離方法,包括:
步驟1)、將聲源信號轉換成數字聲音信號;
步驟2)、提取步驟1)所得到的數字聲音信號的頻譜;
步驟3)、利用聲源信號中所有時頻點上的時間延遲來構建時間延遲直方圖,抽取顯著峰值作為時間延遲的估計值;
步驟4)、利用步驟3)得到的時間延遲的估計值來計算每個語音源的波達方向估計值;
步驟5)、利用步驟4)得到的每個語音源的波達方向估計值對混合語音的頻譜進行分類,得到每個語音源的掩摸,進而根據該掩摸以及步驟2)得到的數字聲音信號的頻譜計算頻域上的分離信號;
所述步驟5)包括:
步驟5-1)、利用步驟4)得到的每個語音源的波達方向估計值,計算每一個頻點到某一語音源的距離;
步驟5-2)、根據步驟5-1)計算得到的頻點到某一語音源的距離為混合語音的頻譜中的各個頻點進行分類;
步驟5-3)、結合步驟5-2)所得到的頻點的分類結果,得到所述某一聲源在每個頻點上的掩摸;
步驟5-4)、根據步驟5-3)得到的所述某一聲源在一頻點上的掩摸以及步驟2)得到的數字聲音信號的離散頻譜計算頻域上的分離信號;
步驟6)、在每個掩摸上對步驟5)得到的頻域的分離信號進行傅里葉逆變換,得到分離的語音。
2.根據權利要求1所述的基于時間延遲直方圖的語音分離方法,其特征在于,所述步驟2)還包括:在提取步驟1)所得到的數字聲音信號的頻譜之前,對所述數字聲音信號進行預處理,所述預處理包括:
對每一幀的數字聲音信號先補零到N點,N=2i,i為整數,且i≥8;然后,對每一幀的數字聲音信號進行加窗或預加重處理,加窗函數采用漢明窗或哈寧窗。
3.根據權利要求1或2所述的基于時間延遲直方圖的語音分離方法,其特征在于,所述步驟3)包括:
步驟3-1)、計算聲音源中任意兩個麥克風所組成的麥克風對的時間延遲;
步驟3-2)、由麥克風對的距離約束以及步驟3-1)得到的麥克風對的時間延遲,得到時間延遲集合;
步驟3-3)、基于步驟3-2)所得到的時間延遲集合構建時間延遲直方圖,抽取顯著峰值作為時間延遲的估計值。
4.根據權利要求1或2所述的基于時間延遲直方圖的語音分離方法,其特征在于,所述步驟4)包括:
步驟4-1)、利用步驟3)得到的來自不同麥克風對的時間延遲估計值兩兩配對估計出波達方向候選值;
步驟4-2)、由步驟4-1)所得到的波達方向候選值估計方向角候選值,利用所有的方向角候選值組成的集合中的所有元素構建方向角直方圖;
步驟4-3)、抽取方向角直方圖中的顯著峰值作為每個語音源的方向角估計值,通過數峰值的數目得到語音源數目的估計值;
步驟4-4)、由步驟4-3)得到的語音源的方向角估計值計算仰角初始值;
步驟4-5)、由步驟4-3)得到的語音源的方向角估計值以及步驟4-4)得到的仰角初始值重新計算每個語音源的波達方向估計值。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中國科學院聲學研究所,未經中國科學院聲學研究所許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710001937.4/1.html,轉載請聲明來源鉆瓜專利網。





