[發(fā)明專利]發(fā)聲者語音抽取方法、裝置、存儲(chǔ)介質(zhì)及電子設(shè)備在審

申請?zhí)枺?/td>	202011055886.1	申請日：	2020-09-29
公開（公告）號(hào)：	CN114333767A	公開（公告）日：	2022-04-12
發(fā)明（設(shè)計(jì)）人：	許家銘;秦磊;郝云喆;徐波;崔強(qiáng)強(qiáng);陳天珞	申請（專利權(quán)）人：	華為技術(shù)有限公司;中國科學(xué)院自動(dòng)化研究所
主分類號(hào)：	G10L15/02	分類號(hào)：	G10L15/02;G10L15/04;G10L15/16;G10L17/02;G10L17/06;G10L17/18;G10L17/26
代理公司：	暫無信息	代理人：	暫無信息
地址：	518129 廣東***	國省代碼：	廣東;44
權(quán)利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關(guān)鍵詞：	發(fā)聲語音抽取方法裝置存儲(chǔ) 介質(zhì) 電子設(shè)備
鉆瓜網(wǎng) 技術(shù)展會(huì) 專利詞庫專利權(quán)人專利榜在售專利公布日期熱門專利

【說明書】：

本申請?zhí)峁┮环N發(fā)聲者語音抽取方法、裝置、存儲(chǔ)介質(zhì)及電子設(shè)備，用以提高語音識(shí)別的實(shí)時(shí)性，以便更好的適應(yīng)實(shí)際應(yīng)用場景。該方法包括：采集環(huán)境中的混合語音，所述混合語音包括目標(biāo)發(fā)聲者的語音；基于所述混合語音，獲得第一語音時(shí)域特征信息；基于已有的所述目標(biāo)發(fā)聲者的聲紋信息，從所述第一語音時(shí)域特征信息中實(shí)時(shí)抽取所述目標(biāo)發(fā)聲者的第二語音時(shí)域特征信息；基于所述第二語音時(shí)域特征信息，獲得所述目標(biāo)發(fā)聲者的語音段。

技術(shù)領(lǐng)域

本申請涉及計(jì)算機(jī)技術(shù)領(lǐng)域，尤其設(shè)計(jì)一種發(fā)聲者語音抽取方法、裝置、存儲(chǔ)介質(zhì)及電子設(shè)備。

背景技術(shù)

目前自動(dòng)語音識(shí)別(automatic speech recognition，ASR)技術(shù)已經(jīng)能夠在安靜場景、單一說話人語音識(shí)別任務(wù)上取得令人印象深刻的效果，但復(fù)雜聲學(xué)場景，尤其是嘈雜環(huán)境下多說話人語音識(shí)別任務(wù)，效果依然不能令人滿意，這就是著名的雞尾酒會(huì)問題。為了解決雞尾酒會(huì)問題，研究人員付出了大量的努力，提出了眾多解決方案，包括語音分離的方案和目標(biāo)人語音抽取的方案。

其中，語音分離的方案必須提前獲知混合語音中說話人的具體數(shù)目，而在現(xiàn)實(shí)場景中，說話人具體數(shù)目可能會(huì)動(dòng)態(tài)變化，無法準(zhǔn)確獲取；而且該方案無法提前預(yù)知輸出通道的說話人標(biāo)簽，即存在排列問題；并且該方案分離混合語音場景中所有說話人的語音，而實(shí)際上我們不一定對所有人都感興趣，可能只對部分說話人感興趣。因此，語音分離的方案不能很好的適應(yīng)實(shí)際應(yīng)用場景。

目標(biāo)人語音抽取的方案旨在抽取出混合語音中指定說話人的語音，該方案可以更好的適應(yīng)實(shí)際應(yīng)用場景。然而，現(xiàn)有的目標(biāo)人語音抽取的方案通常采用短時(shí)傅里葉變換(short-time Fourier transform，STFT)頻域編碼方式，因此該方案的實(shí)時(shí)性上限(即時(shí)延上限)受到STFT窗長的限制，其時(shí)延上限等于STFT的窗長，一般為32毫秒，因此具有實(shí)時(shí)處理能力低的缺點(diǎn)。然而，實(shí)際應(yīng)用場景，如ASR或助聽器前端等，對方案的實(shí)時(shí)處理能力有較高的要求。

發(fā)明內(nèi)容

有鑒于此，本申請?zhí)峁┮环N發(fā)聲者語音抽取方法、裝置、存儲(chǔ)介質(zhì)及電子設(shè)備，用以提高語音識(shí)別的實(shí)時(shí)性，以便更好的適應(yīng)實(shí)際應(yīng)用場景。

本申請的技術(shù)方案如下：

根據(jù)本申請實(shí)施例的第一方面，提供一種發(fā)聲者語音抽取方法，所述方法包括：

采集環(huán)境中的混合語音，所述混合語音包括目標(biāo)發(fā)聲者的語音；

基于所述混合語音，獲得第一語音時(shí)域特征信息；

基于已有的所述目標(biāo)發(fā)聲者的聲紋信息，從所述第一語音時(shí)域特征信息中實(shí)時(shí)抽取所述目標(biāo)發(fā)聲者的第二語音時(shí)域特征信息；

基于所述第二語音時(shí)域特征信息，獲得所述目標(biāo)發(fā)聲者的語音段。

在一可能的實(shí)現(xiàn)方式中，所述基于所述混合語音，獲得第一語音時(shí)域特征信息，包括：

基于所述混合語音，獲得第一單通道語音；

對所述第一單通道語音進(jìn)行斷句切分，得到包含預(yù)設(shè)類型聲音的第一語音分段數(shù)據(jù)流；

通過預(yù)先訓(xùn)練的時(shí)域編碼器對所述第一語音分段數(shù)據(jù)流進(jìn)行處理，獲得第一語音時(shí)域特征信息。

在一可能的實(shí)現(xiàn)方式中，在基于已有的所述目標(biāo)發(fā)聲者的聲紋信息，從所述第一語音時(shí)域特征信息中實(shí)時(shí)抽取所述目標(biāo)發(fā)聲者的第二語音時(shí)域特征信息之前，該方法還包括：

采集所述目標(biāo)發(fā)聲者的語音；

基于所述目標(biāo)發(fā)聲者的語音，獲得第二單通道語音；

對所述第二單通道語音進(jìn)行斷句切分，得到包含預(yù)設(shè)類型聲音的第二語音分段數(shù)據(jù)流；

從所述第二語音分段數(shù)據(jù)流中提取所述目標(biāo)發(fā)聲者的語音特征信息；

下載完整專利技術(shù)內(nèi)容需要扣除積分，VIP會(huì)員可以免費(fèi)下載。

免登錄下載普通用戶下載升級VIP會(huì)員，免費(fèi)下載

該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息，商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于華為技術(shù)有限公司;中國科學(xué)院自動(dòng)化研究所，未經(jīng)華為技術(shù)有限公司;中國科學(xué)院自動(dòng)化研究所許可，擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作，請聯(lián)系【客服】

本文鏈接：http://www.szxzyx.cn/pat/books/202011055886.1/2.html，轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。

上一篇：充電控制方法、裝置及存儲(chǔ)介質(zhì)
下一篇：一種打頂裝置和農(nóng)業(yè)設(shè)備

同類專利

專利分類

G 物理

G10 樂器；聲學(xué)
G10L 語音分析或合成；語音識(shí)別；音頻分析或處理
G10L15-00 語音識(shí)別
G10L15-02 .語音識(shí)別的特征提取；識(shí)別單位的選擇
G10L15-04 .分段或字極限檢測
G10L15-06 .創(chuàng)建基準(zhǔn)模板；訓(xùn)練語音識(shí)別系統(tǒng)，例如對說話者聲音特征的適應(yīng)
G10L15-08 .語音分類或檢索
G10L15-20 .專門適用于不利環(huán)境

免登錄下載普通用戶下載升級VIP會(huì)員，免費(fèi)下載

專利文獻(xiàn)下載

說明：

1、專利原文基于中國國家知識(shí)產(chǎn)權(quán)局專利說明書；

2、支持發(fā)明專利、實(shí)用新型專利、外觀設(shè)計(jì)專利（升級中）；

3、專利數(shù)據(jù)每周兩次同步更新，支持Adobe PDF格式；

4、內(nèi)容包括專利技術(shù)的結(jié)構(gòu)示意圖、流程工藝圖或技術(shù)構(gòu)造圖；

5、已全新升級為極速版,下載速度顯著提升！歡迎使用！

請您登陸后，進(jìn)行下載，點(diǎn)擊【登陸】【注冊】