[發(fā)明專(zhuān)利]語(yǔ)音音區(qū)切換方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)在審
| 申請(qǐng)?zhí)枺?/td> | 202210139939.0 | 申請(qǐng)日: | 2022-02-16 |
| 公開(kāi)(公告)號(hào): | CN114550717A | 公開(kāi)(公告)日: | 2022-05-27 |
| 發(fā)明(設(shè)計(jì))人: | 沈洋 | 申請(qǐng)(專(zhuān)利權(quán))人: | 北京梧桐車(chē)聯(lián)科技有限責(zé)任公司 |
| 主分類(lèi)號(hào): | G10L15/22 | 分類(lèi)號(hào): | G10L15/22;G10L17/00;G10L25/51;H04R1/40 |
| 代理公司: | 北京三高永信知識(shí)產(chǎn)權(quán)代理有限責(zé)任公司 11138 | 代理人: | 邢少真 |
| 地址: | 100089 北京*** | 國(guó)省代碼: | 北京;11 |
| 權(quán)利要求書(shū): | 查看更多 | 說(shuō)明書(shū): | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 語(yǔ)音 音區(qū) 切換 方法 裝置 設(shè)備 存儲(chǔ) 介質(zhì) | ||
本申請(qǐng)公開(kāi)了一種語(yǔ)音音區(qū)切換方法、裝置、設(shè)備及存儲(chǔ)介質(zhì),屬于語(yǔ)音識(shí)別領(lǐng)域。所述方法包括:獲取目標(biāo)對(duì)象的語(yǔ)音音頻,該語(yǔ)音音頻為目標(biāo)對(duì)象在當(dāng)前時(shí)間使用語(yǔ)音客戶端時(shí)所發(fā)出的音頻,對(duì)該語(yǔ)音音頻進(jìn)行聲源定位,以確定該語(yǔ)音音頻對(duì)應(yīng)的聲源定位值,基于第一時(shí)間段內(nèi)獲取到的各個(gè)語(yǔ)音音頻對(duì)應(yīng)的聲源定位值進(jìn)行語(yǔ)音音區(qū)的切換。由于語(yǔ)音音頻對(duì)應(yīng)的聲源定位值能夠指示語(yǔ)音音頻的來(lái)源方向,所以,在確定出語(yǔ)音音頻對(duì)應(yīng)的聲源定位值之后,能夠基于聲源定位值確定當(dāng)前時(shí)間使用語(yǔ)音客戶端的目標(biāo)對(duì)象是否來(lái)源于同一方向,進(jìn)而基于第一時(shí)間段內(nèi)各個(gè)語(yǔ)音音頻對(duì)應(yīng)的聲源定位值進(jìn)行語(yǔ)音音區(qū)的切換。
技術(shù)領(lǐng)域
本申請(qǐng)涉及語(yǔ)音識(shí)別領(lǐng)域,特別涉及一種語(yǔ)音音區(qū)切換方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)。
背景技術(shù)
目前,諸如語(yǔ)音助手等語(yǔ)音客戶端的工作模式通常包括單音區(qū)模式和雙音區(qū)模式,在語(yǔ)音客戶端的工作模式為單音區(qū)模式的情況下,語(yǔ)音客戶端通過(guò)單通道采集語(yǔ)音音頻。在語(yǔ)音客戶端的工作模式為雙音區(qū)模式的情況下,語(yǔ)音客戶端通過(guò)雙通道采集語(yǔ)音音頻。但是,在某些情況下,語(yǔ)音客戶端的工作模式需要在單音區(qū)模式和雙音區(qū)模式之間進(jìn)行切換。因此,如何進(jìn)行語(yǔ)音音區(qū)的切換成為目前亟待解決的問(wèn)題。
發(fā)明內(nèi)容
本申請(qǐng)?zhí)峁┝艘环N語(yǔ)音音區(qū)切換方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)。所述技術(shù)方案如下:
一方面,提供了一種語(yǔ)音音區(qū)切換方法,所述方法包括:
獲取目標(biāo)對(duì)象的語(yǔ)音音頻,所述語(yǔ)音音頻為所述目標(biāo)對(duì)象在當(dāng)前時(shí)間使用語(yǔ)音客戶端時(shí)所發(fā)出的音頻;
對(duì)所述語(yǔ)音音頻進(jìn)行聲源定位,以確定所述語(yǔ)音音頻對(duì)應(yīng)的聲源定位值;
基于第一時(shí)間段內(nèi)獲取到的各個(gè)語(yǔ)音音頻對(duì)應(yīng)的聲源定位值進(jìn)行語(yǔ)音音區(qū)的切換,所述第一時(shí)間段為包含所述當(dāng)前時(shí)間且位于所述當(dāng)前時(shí)間之前的一個(gè)時(shí)間段。
可選地,所述對(duì)所述語(yǔ)音音頻進(jìn)行聲源定位,以確定所述語(yǔ)音音頻對(duì)應(yīng)的聲源定位值,包括:
對(duì)所述語(yǔ)音音頻進(jìn)行聲源定位,以確定所述目標(biāo)對(duì)象為主駕人員還是副駕人員;
在所述目標(biāo)對(duì)象為主駕人員的情況下,確定所述語(yǔ)音音頻對(duì)應(yīng)的聲源定位值為第一數(shù)值;
在所述目標(biāo)對(duì)象為副駕人員的情況下,確定所述語(yǔ)音音頻對(duì)應(yīng)的聲源定位值為第二數(shù)值。
可選地,所述基于第一時(shí)間段內(nèi)獲取到的各個(gè)語(yǔ)音音頻對(duì)應(yīng)的聲源定位值進(jìn)行語(yǔ)音音區(qū)切換,包括:
在所述各個(gè)語(yǔ)音音頻對(duì)應(yīng)的聲源定位值均相同,且所述語(yǔ)音客戶端的工作模式為單音區(qū)模式的情況下,保持所述語(yǔ)音客戶端的工作模式不變;
在所述各個(gè)語(yǔ)音音頻對(duì)應(yīng)的聲源定位值均相同,且所述語(yǔ)音客戶端的工作模式為雙音區(qū)模式的情況下,切換所述語(yǔ)音客戶端的工作模式為單音區(qū)模式;
在所述各個(gè)語(yǔ)音音頻對(duì)應(yīng)的聲源定位值存在不同,且所述語(yǔ)音客戶端的工作模式為單音區(qū)模式的情況下,切換所述語(yǔ)音客戶端的工作模式為雙音區(qū)模式;
在所述各個(gè)語(yǔ)音音頻對(duì)應(yīng)的聲源定位值存在不同,且所述語(yǔ)音客戶端的工作模式為雙音區(qū)模式的情況下,保持所述語(yǔ)音客戶端的工作模式不變。
可選地,所述基于第一時(shí)間段內(nèi)獲取到的各個(gè)語(yǔ)音音頻對(duì)應(yīng)的聲源定位值進(jìn)行語(yǔ)音音區(qū)切換,包括:
獲取第二時(shí)間段內(nèi)的各個(gè)語(yǔ)音音頻對(duì)應(yīng)的聲源定位值,所述第二時(shí)間段為所述第一時(shí)間段之前且距離所述第一時(shí)間段最近的一個(gè)時(shí)間段;
基于所述第一時(shí)間段內(nèi)的各個(gè)語(yǔ)音音頻對(duì)應(yīng)的聲源定位值,以及所述第二時(shí)間段內(nèi)的各個(gè)語(yǔ)音音頻對(duì)應(yīng)的聲源定位值,進(jìn)行語(yǔ)音音區(qū)的切換。
可選地,所述基于所述第一時(shí)間段內(nèi)的各個(gè)語(yǔ)音音頻對(duì)應(yīng)的聲源定位值,以及所述第二時(shí)間段內(nèi)的各個(gè)語(yǔ)音音頻對(duì)應(yīng)的聲源定位值,進(jìn)行語(yǔ)音音區(qū)的切換,包括:
該專(zhuān)利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專(zhuān)利權(quán)人授權(quán)。該專(zhuān)利全部權(quán)利屬于北京梧桐車(chē)聯(lián)科技有限責(zé)任公司,未經(jīng)北京梧桐車(chē)聯(lián)科技有限責(zé)任公司許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買(mǎi)此專(zhuān)利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202210139939.0/2.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專(zhuān)利網(wǎng)。
- 同類(lèi)專(zhuān)利
- 專(zhuān)利分類(lèi)
G10L 語(yǔ)音分析或合成;語(yǔ)音識(shí)別;音頻分析或處理
G10L15-00 語(yǔ)音識(shí)別
G10L15-02 .語(yǔ)音識(shí)別的特征提取;識(shí)別單位的選擇
G10L15-04 .分段或字極限檢測(cè)
G10L15-06 .創(chuàng)建基準(zhǔn)模板;訓(xùn)練語(yǔ)音識(shí)別系統(tǒng),例如對(duì)說(shuō)話者聲音特征的適應(yīng)
G10L15-08 .語(yǔ)音分類(lèi)或檢索
G10L15-20 .專(zhuān)門(mén)適用于不利環(huán)境
- 用于語(yǔ)音處理的方法與系統(tǒng)
- 一種語(yǔ)音識(shí)別測(cè)試系統(tǒng)及方法
- 用于語(yǔ)音識(shí)別的方法和裝置
- 一種語(yǔ)音消毒柜的控制方法及語(yǔ)音消毒柜
- 一種語(yǔ)音處理方法及裝置
- 混合語(yǔ)音識(shí)別方法、裝置及計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)
- 語(yǔ)音情緒識(shí)別方法、系統(tǒng)、移動(dòng)終端及存儲(chǔ)介質(zhì)
- 一種具有語(yǔ)音識(shí)別功能的智能語(yǔ)音終端設(shè)備
- 語(yǔ)音增強(qiáng)方法、裝置、電子設(shè)備和存儲(chǔ)介質(zhì)
- 一種聲紋鑒定語(yǔ)音重組方法和系統(tǒng)
- 一種數(shù)據(jù)庫(kù)讀寫(xiě)分離的方法和裝置
- 一種手機(jī)動(dòng)漫人物及背景創(chuàng)作方法
- 一種通訊綜合測(cè)試終端的測(cè)試方法
- 一種服裝用人體測(cè)量基準(zhǔn)點(diǎn)的獲取方法
- 系統(tǒng)升級(jí)方法及裝置
- 用于虛擬和接口方法調(diào)用的裝置和方法
- 線程狀態(tài)監(jiān)控方法、裝置、計(jì)算機(jī)設(shè)備和存儲(chǔ)介質(zhì)
- 一種JAVA智能卡及其虛擬機(jī)組件優(yōu)化方法
- 檢測(cè)程序中方法耗時(shí)的方法、裝置及存儲(chǔ)介質(zhì)
- 函數(shù)的執(zhí)行方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)





