[發(fā)明專利]一種目標(biāo)聲源鎖定和提取的方法在審
| 申請(qǐng)?zhí)枺?/td> | 202011042009.0 | 申請(qǐng)日: | 2020-09-28 |
| 公開(公告)號(hào): | CN112259117A | 公開(公告)日: | 2021-01-22 |
| 發(fā)明(設(shè)計(jì))人: | 葉劍豪;瞿虎林;周偉林 | 申請(qǐng)(專利權(quán))人: | 上海聲瀚信息科技有限公司 |
| 主分類號(hào): | G10L21/0272 | 分類號(hào): | G10L21/0272;G10L21/0208;G10L25/18;G10L25/21;G10L25/30;G10L25/78;G10L25/87;G10L15/20 |
| 代理公司: | 北京化育知識(shí)產(chǎn)權(quán)代理有限公司 11833 | 代理人: | 尹均利 |
| 地址: | 200120 上海市浦東新區(qū)中國(guó)(上*** | 國(guó)省代碼: | 上海;31 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 目標(biāo) 聲源 鎖定 提取 方法 | ||
本發(fā)明公開了一種目標(biāo)聲源鎖定和提取的方法,首先通過多通道BSS算法AUX?IVA(基于輔助函數(shù)的獨(dú)立向量分析)提取出多個(gè)聲源,再通過基于SNR(信噪比)和語音識(shí)別系統(tǒng)反饋的自適應(yīng)目標(biāo)聲源鎖定進(jìn)行聲源選擇。在此基礎(chǔ)上,再通過聲源分離中的不同聲源相對(duì)的空間信息判斷純干擾聲源段,并進(jìn)行消除。最后使用基于DNN的VAD端點(diǎn)檢測(cè)。算法提取最終的目標(biāo)聲源有效語音段,語音識(shí)別系統(tǒng)的反饋同樣作用于VAD算法。基于時(shí)間窗的AUX?IVA算法,總體算法收斂迭代次數(shù)所需少,更加輕量級(jí),且進(jìn)一步利用空間信息進(jìn)行干擾源和目標(biāo)源的分離提取。
技術(shù)領(lǐng)域
本發(fā)明涉及一種目標(biāo)聲源鎖定和提取的方法,尤其涉及一種強(qiáng)非穩(wěn)態(tài)干擾環(huán)境下基于多通道聲源分離和端點(diǎn)檢測(cè)的目標(biāo)聲源鎖定和提取的方法。
背景技術(shù)
語音作為新一代的人機(jī)交互方式正在越來越多的被用在嵌入式設(shè)備中,如汽車中的車機(jī)和家用電器,融入到人們的日常生活中。然而這些帶語音識(shí)別交互功能的嵌入式設(shè)備所在的環(huán)境通常包含了非穩(wěn)態(tài)的干擾源。雖然近年來的降噪算法發(fā)展迅速,且越來越多的使用DNN(神經(jīng)網(wǎng)絡(luò))的建模方式。但是當(dāng)干擾源和目標(biāo)聲源的聲學(xué)特征具有很強(qiáng)的共性時(shí),傳統(tǒng)語音增強(qiáng)算法的工作流通常無法從這種強(qiáng)非穩(wěn)態(tài)干擾源中區(qū)分出目標(biāo)聲源,如具有高保真音響的電視播放的新聞節(jié)目等。而輸入語音識(shí)別系統(tǒng)的理想信號(hào)應(yīng)該是在目標(biāo)聲源和干擾聲源重疊部分提取出目標(biāo)聲源信號(hào),且在無目標(biāo)聲源段沒有干擾聲源輸入語音識(shí)別系統(tǒng)。
傳統(tǒng)的語音增強(qiáng)算法流程中,降噪算法雖然已經(jīng)可以比較好的能應(yīng)對(duì)一些與人聲區(qū)別較大的日常噪聲。但是對(duì)于和人聲聲學(xué)特征非常相似的干擾聲源,降噪算法沒有能力去區(qū)分目標(biāo)聲源。而單純的多通道聲源BSS(盲分離)算法雖然可以應(yīng)對(duì)多個(gè)聲源的情況,但是由于是盲分離,其無法鎖定目標(biāo)聲源,并且在實(shí)際語音交互環(huán)境下由于混響和其他信號(hào)失真的影響,會(huì)留下大量純干擾聲源。
本發(fā)明主要目為在語音交互場(chǎng)景下,將含有多個(gè)聲源的多路語音信號(hào)進(jìn)行聲源分離,并自適應(yīng)地鎖定目標(biāo)聲源從而提取出目標(biāo)聲源段,且同時(shí)大幅減少純干擾聲源信號(hào)段的能量水平,從而使語音識(shí)別系統(tǒng)在強(qiáng)非穩(wěn)態(tài)干擾源下能夠正常識(shí)別目標(biāo)聲源的有效語音。并且系統(tǒng)足夠輕量級(jí)從而能夠部署在大部分嵌入式系統(tǒng)中。
發(fā)明內(nèi)容
本發(fā)明為解決上述技術(shù)問題而采用的技術(shù)方案是提供一種目標(biāo)聲源鎖定和提取的方法,使用分離聲源的SNR和語音識(shí)別反饋來自動(dòng)鎖定目標(biāo)聲源。
其中,具體技術(shù)方案為:
1)使用基于輔助函數(shù)的窗移獨(dú)立向量分析;
2)在分離后的多通道聲源中選擇目標(biāo)聲源;
3)基于分離后聲源相對(duì)空間信息的純干擾聲源段檢測(cè)和消除;
4)使用基于DNN的VAD算法進(jìn)行最終目標(biāo)聲源語音段提取。
上述的一種目標(biāo)聲源鎖定和提取的方法,其中,1)使用基于輔助函數(shù)的窗移獨(dú)立向量分析,具體為:
步驟1)將M個(gè)麥克風(fēng)采集到的包含M個(gè)源信號(hào)的混合信號(hào)xm(n),1≤m≤M進(jìn)行短時(shí)傅里葉變換,得到其頻域表示x(ω,τ),其中ω和τ分別為頻率和時(shí)間索引,總的頻段數(shù)為K;并初始化盲分離矩陣W(ω,τ);
步驟2)累積得到Lb幀混合信號(hào)的頻域表示X(ω,τ),并使用W(ω,τ)對(duì)其進(jìn)行分離,得到估計(jì)的包含M個(gè)源的信號(hào)Y(ω,τ),即Y(ω,τ)=X(ω,τ)W(ω,τ),Y(ω,τ)為Mx1的向量;
步驟3)依據(jù)公式(1)和公式(2)更新輔助函數(shù)Vm(ω;τ);
式(1)中,α(0≤α≤1)是遺忘因子,Lb為塊大小;
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于上海聲瀚信息科技有限公司,未經(jīng)上海聲瀚信息科技有限公司許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011042009.0/2.html,轉(zhuǎn)載請(qǐng)聲明來源鉆瓜專利網(wǎng)。
- 目標(biāo)檢測(cè)裝置、學(xué)習(xí)裝置、目標(biāo)檢測(cè)系統(tǒng)及目標(biāo)檢測(cè)方法
- 目標(biāo)監(jiān)測(cè)方法、目標(biāo)監(jiān)測(cè)裝置以及目標(biāo)監(jiān)測(cè)程序
- 目標(biāo)監(jiān)控系統(tǒng)及目標(biāo)監(jiān)控方法
- 目標(biāo)跟蹤方法和目標(biāo)跟蹤設(shè)備
- 目標(biāo)跟蹤方法和目標(biāo)跟蹤裝置
- 目標(biāo)檢測(cè)方法和目標(biāo)檢測(cè)裝置
- 目標(biāo)跟蹤方法、目標(biāo)跟蹤裝置、目標(biāo)跟蹤設(shè)備
- 目標(biāo)處理方法、目標(biāo)處理裝置、目標(biāo)處理設(shè)備及介質(zhì)
- 目標(biāo)處理方法、目標(biāo)處理裝置、目標(biāo)處理設(shè)備及介質(zhì)
- 目標(biāo)跟蹤系統(tǒng)及目標(biāo)跟蹤方法
- 音頻信號(hào)接收裝置、音頻信號(hào)接收方法和音頻信號(hào)傳輸系統(tǒng)
- 聲源定位方法和裝置
- 聲源分離裝置和方法以及程序
- 改進(jìn)的頻域SRP聲源方位估計(jì)方法
- 用于提供聲源信息的方法和裝置及增強(qiáng)現(xiàn)實(shí)眼鏡
- 語音識(shí)別方法、裝置、服務(wù)器及存儲(chǔ)介質(zhì)
- 一種聲源定位方法、裝置、介質(zhì)和設(shè)備
- 一種軌道車輛車內(nèi)噪聲源識(shí)別方法及系統(tǒng)
- 一種目標(biāo)定位方法、裝置及計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)
- 聲音編碼裝置、聲音譯碼裝置及聲音編碼譯碼裝置、以及聲音編碼方法、聲音譯碼方法及聲音編碼譯碼方法





