[發(fā)明專利]一種音頻數(shù)據(jù)處理方法、裝置及存儲(chǔ)介質(zhì)有效
| 申請(qǐng)?zhí)枺?/td> | 201811409815.X | 申請(qǐng)日: | 2018-11-23 |
| 公開(kāi)(公告)號(hào): | CN109599124B | 公開(kāi)(公告)日: | 2023-01-10 |
| 發(fā)明(設(shè)計(jì))人: | 高毅 | 申請(qǐng)(專利權(quán))人: | 騰訊科技(深圳)有限公司 |
| 主分類號(hào): | G10L21/02 | 分類號(hào): | G10L21/02;G10L21/0208;G10L21/0216;G10L25/18;G10L15/02;G10L15/06;G10L15/08;G10L15/20;G10L15/22 |
| 代理公司: | 廣州三環(huán)專利商標(biāo)代理有限公司 44202 | 代理人: | 郝傳鑫;熊永強(qiáng) |
| 地址: | 518057 廣東省深圳*** | 國(guó)省代碼: | 廣東;44 |
| 權(quán)利要求書: | 查看更多 | 說(shuō)明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 音頻 數(shù)據(jù)處理 方法 裝置 存儲(chǔ) 介質(zhì) | ||
1.一種音頻數(shù)據(jù)處理方法,其特征在于,所述方法由終端執(zhí)行,所述終端中攜帶具有語(yǔ)音采集功能的麥克風(fēng)陣列、語(yǔ)音增強(qiáng)系統(tǒng)、第一喚醒檢測(cè)模型和第二喚醒檢測(cè)模型,所述語(yǔ)音增強(qiáng)系統(tǒng)包括回聲消除器、波束形成器、噪聲消除器和混響消除器,所述方法包括:
獲取環(huán)境空間中的多路音頻數(shù)據(jù),并基于所述多路音頻數(shù)據(jù)得到語(yǔ)音數(shù)據(jù)集合,并在所述波束形成器的多個(gè)增強(qiáng)方向上分別生成所述語(yǔ)音數(shù)據(jù)集合對(duì)應(yīng)的增強(qiáng)語(yǔ)音信息;一路音頻數(shù)據(jù)為所述麥克風(fēng)陣列中的一個(gè)全向麥克風(fēng)所采集到的所述環(huán)境空間中的音頻信號(hào),且所述麥克風(fēng)陣列中的全向麥克風(fēng)的個(gè)數(shù)決定了獲取到的音頻數(shù)據(jù)的路數(shù);所述音頻信號(hào)包含第一語(yǔ)音信號(hào)和第二語(yǔ)音信號(hào);所述第一語(yǔ)音信號(hào)是所述麥克風(fēng)陣列所采集到的一個(gè)或者多個(gè)用戶發(fā)出的聲音信號(hào),所述第二語(yǔ)音信號(hào)是所述麥克風(fēng)陣列所采集到的所述終端發(fā)出的聲音信號(hào);所述語(yǔ)音數(shù)據(jù)集合是由所述回聲消除器對(duì)每路音頻數(shù)據(jù)中的第二語(yǔ)音信號(hào)進(jìn)行去噪處理后所組合得到的;所述波束形成器用于在每個(gè)增強(qiáng)方向上增強(qiáng)所述語(yǔ)音數(shù)據(jù)集合中的第一語(yǔ)音信號(hào),得到所述每個(gè)增強(qiáng)方向上的方向性增強(qiáng)數(shù)據(jù);所述語(yǔ)音數(shù)據(jù)集合對(duì)應(yīng)的增強(qiáng)語(yǔ)音信息是由所述噪聲消除器和所述混響消除器,對(duì)所述每個(gè)增強(qiáng)方向上的方向性增強(qiáng)數(shù)據(jù)進(jìn)行環(huán)境噪音濾除后所得到的;
將通過(guò)所述第一喚醒檢測(cè)模型所獲取到的所述增強(qiáng)語(yǔ)音信息中的語(yǔ)音隱藏特征與目標(biāo)匹配詞進(jìn)行匹配,并將與所述目標(biāo)匹配詞具有最高匹配度的增強(qiáng)語(yǔ)音信息對(duì)應(yīng)的增強(qiáng)方向,確定為目標(biāo)音頻方向;所述第一喚醒檢測(cè)模型中的喚醒詞檢測(cè)器用于接收來(lái)自對(duì)應(yīng)增強(qiáng)方向上的增強(qiáng)語(yǔ)音信息,且所述第一喚醒檢測(cè)模型中的喚醒詞檢測(cè)器的個(gè)數(shù)取決于所述語(yǔ)音增強(qiáng)系統(tǒng)中的所述波束形成器的增強(qiáng)方向的個(gè)數(shù);所述增強(qiáng)語(yǔ)音信息中的語(yǔ)音隱藏特征是從所述第一喚醒檢測(cè)模型所獲取到的所述增強(qiáng)語(yǔ)音信息中的語(yǔ)音頻譜特征提取到的;
通過(guò)所述第二喚醒檢測(cè)模型獲取所述增強(qiáng)語(yǔ)音信息中的語(yǔ)音頻譜特征,并在所述語(yǔ)音頻譜特征中獲取所述目標(biāo)音頻方向上的語(yǔ)音頻譜特征;所述第二喚醒檢查模型中包含用于存儲(chǔ)所述目標(biāo)音頻方向上的語(yǔ)音隱藏特征和語(yǔ)音頻譜特征的緩存器;存儲(chǔ)在所述緩存器中的所述目標(biāo)音頻方向上的語(yǔ)音隱藏特征是由所述第一喚醒檢測(cè)模型所確定的;
通過(guò)所述第二喚醒檢測(cè)模型,對(duì)所述緩存器中所存儲(chǔ)的所述目標(biāo)音頻方向上的語(yǔ)音隱藏特征和語(yǔ)音頻譜特征進(jìn)行向量拼接,以對(duì)拼接得到的拼接向量特征進(jìn)行語(yǔ)音驗(yàn)證,得到目標(biāo)驗(yàn)證結(jié)果;所述目標(biāo)驗(yàn)證結(jié)果用于表征所述目標(biāo)音頻方向上存在用于控制終端的所述目標(biāo)匹配詞的概率。
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述獲取環(huán)境空間中的多路音頻數(shù)據(jù),包括:
獲取終端所處環(huán)境空間對(duì)應(yīng)的麥克風(fēng)陣列;所述麥克風(fēng)陣列包含多個(gè)麥克風(fēng),以及各麥克風(fēng)對(duì)應(yīng)的陣列結(jié)構(gòu);
基于所述各麥克風(fēng)的陣列結(jié)構(gòu)采集所述環(huán)境空間中的音頻信號(hào);所述音頻信號(hào)包含至少一個(gè)語(yǔ)音信號(hào);
將所述各麥克風(fēng)采集到的所述至少一個(gè)語(yǔ)音信號(hào),分別確定為所述各麥克風(fēng)對(duì)應(yīng)的一路音頻數(shù)據(jù);一路音頻數(shù)據(jù)為一個(gè)麥克風(fēng)所采集到的所述至少一個(gè)語(yǔ)音信號(hào)。
3.根據(jù)權(quán)利要求2所述的方法,其特征在于,所述各麥克風(fēng)對(duì)應(yīng)的一路音頻數(shù)據(jù)包含第一語(yǔ)音信號(hào)和第二語(yǔ)音信號(hào);所述第一語(yǔ)音信號(hào)是所述麥克風(fēng)陣列所采集到的用戶發(fā)出的聲音信號(hào),所述第二語(yǔ)音信號(hào)是所述麥克風(fēng)陣列所采集到的所述終端發(fā)出的聲音信號(hào);
所述基于所述多路音頻數(shù)據(jù)得到語(yǔ)音數(shù)據(jù)集合,包括:
從所述麥克風(fēng)陣列中的各麥克風(fēng)中選取一個(gè)麥克風(fēng)作為目標(biāo)麥克風(fēng),并將所述目標(biāo)麥克風(fēng)對(duì)應(yīng)的包含第一語(yǔ)音信號(hào)和第二語(yǔ)音信號(hào)的音頻數(shù)據(jù),作為目標(biāo)音頻數(shù)據(jù);
使用回聲消除器消除所述目標(biāo)音頻數(shù)據(jù)中的第二語(yǔ)音信號(hào),并將消除第二語(yǔ)音信號(hào)后的目標(biāo)音頻數(shù)據(jù)確定為待增強(qiáng)語(yǔ)音數(shù)據(jù);
當(dāng)所述麥克風(fēng)陣列中的每個(gè)麥克風(fēng)均被確定為目標(biāo)麥克風(fēng)時(shí),得到與各路音頻數(shù)據(jù)分別對(duì)應(yīng)的待增強(qiáng)語(yǔ)音數(shù)據(jù);
將各待增強(qiáng)語(yǔ)音數(shù)據(jù)分別添加到語(yǔ)音數(shù)據(jù)集合。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于騰訊科技(深圳)有限公司,未經(jīng)騰訊科技(深圳)有限公司許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201811409815.X/1.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專利網(wǎng)。
- 同類專利
- 專利分類
G10L 語(yǔ)音分析或合成;語(yǔ)音識(shí)別;音頻分析或處理
G10L21-00 為了改變語(yǔ)音信號(hào)的質(zhì)量或其可識(shí)度而處理語(yǔ)音信號(hào),以產(chǎn)生另一種可聽(tīng)的或非可聽(tīng)的信號(hào),例如視覺(jué)信號(hào)或觸覺(jué)信號(hào)
G10L21-02 .語(yǔ)音增強(qiáng),例如降低噪聲或消除回聲
G10L21-04 .時(shí)間壓縮或擴(kuò)展
G10L21-06 .將語(yǔ)音轉(zhuǎn)換成非可聽(tīng)表達(dá)形式,例如語(yǔ)音可視化、觸覺(jué)輔助的語(yǔ)音處理
- 自動(dòng)配置藍(lán)牙A2DP傳輸音頻編碼格式的方法和系統(tǒng)
- 一種多路音頻處理方法、音頻播放終端及音頻接收裝置
- 一種音頻處理方法、裝置及終端設(shè)備
- 一種音頻質(zhì)量的檢測(cè)方法、裝置、電子設(shè)備及存儲(chǔ)介質(zhì)
- 音頻分離方法、裝置、設(shè)備及計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)
- 一種音頻播放方法、裝置、以及計(jì)算機(jī)存儲(chǔ)介質(zhì)
- 一種音頻錄制系統(tǒng)
- 一種音頻共享系統(tǒng)及方法
- 音頻樣本生成方法、裝置、計(jì)算機(jī)設(shè)備及存儲(chǔ)介質(zhì)
- 音頻處理方法和裝置
- 數(shù)據(jù)處理設(shè)備,數(shù)據(jù)處理方法,和數(shù)據(jù)處理程序
- 數(shù)據(jù)處理電路、數(shù)據(jù)處理裝置、數(shù)據(jù)處理方法、數(shù)據(jù)處理控制方法
- 數(shù)據(jù)處理設(shè)備、數(shù)據(jù)處理方法和數(shù)據(jù)處理程序
- 數(shù)據(jù)處理裝置、數(shù)據(jù)處理方法及數(shù)據(jù)處理程序
- 數(shù)據(jù)處理裝置、數(shù)據(jù)處理方法及計(jì)算機(jī)可讀取的記錄介質(zhì)
- 數(shù)據(jù)處理裝置、數(shù)據(jù)處理方法和數(shù)據(jù)處理程序
- 數(shù)據(jù)處理裝置、數(shù)據(jù)處理方法和數(shù)據(jù)處理程序
- 數(shù)據(jù)處理裝置、數(shù)據(jù)處理方法以及數(shù)據(jù)處理程序
- 數(shù)據(jù)處理裝置、數(shù)據(jù)處理方法以及數(shù)據(jù)處理程序
- 數(shù)據(jù)處理裝置、數(shù)據(jù)處理方法和數(shù)據(jù)處理程序
- 一種數(shù)據(jù)庫(kù)讀寫分離的方法和裝置
- 一種手機(jī)動(dòng)漫人物及背景創(chuàng)作方法
- 一種通訊綜合測(cè)試終端的測(cè)試方法
- 一種服裝用人體測(cè)量基準(zhǔn)點(diǎn)的獲取方法
- 系統(tǒng)升級(jí)方法及裝置
- 用于虛擬和接口方法調(diào)用的裝置和方法
- 線程狀態(tài)監(jiān)控方法、裝置、計(jì)算機(jī)設(shè)備和存儲(chǔ)介質(zhì)
- 一種JAVA智能卡及其虛擬機(jī)組件優(yōu)化方法
- 檢測(cè)程序中方法耗時(shí)的方法、裝置及存儲(chǔ)介質(zhì)
- 函數(shù)的執(zhí)行方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)





