[發(fā)明專利]信號生成的方法、基于人工智能的語音識別方法及裝置有效
| 申請?zhí)枺?/td> | 201910838669.0 | 申請日: | 2019-09-05 |
| 公開(公告)號: | CN110415718B | 公開(公告)日: | 2020-11-03 |
| 發(fā)明(設(shè)計)人: | 鄭脊萌;劉二男;黎韋偉;陳聯(lián)武 | 申請(專利權(quán))人: | 騰訊科技(深圳)有限公司 |
| 主分類號: | G10L21/0208 | 分類號: | G10L21/0208;G10L21/0216;G10L15/22 |
| 代理公司: | 深圳市深佳知識產(chǎn)權(quán)代理事務(wù)所(普通合伙) 44285 | 代理人: | 吳磊 |
| 地址: | 518057 廣東省深圳*** | 國省代碼: | 廣東;44 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 信號 生成 方法 基于 人工智能 語音 識別 裝置 | ||
本申請公開了一信號生成的方法,該方法應(yīng)用于人工智能領(lǐng)域,包括:當(dāng)通過麥克風(fēng)陣列獲取目標(biāo)語音幀對應(yīng)的語音輸入信號時,根據(jù)語音輸入信號獲取待估計角度對應(yīng)的第一信號能量,待估計角度在入射方位角范圍內(nèi);根據(jù)入射方位角范圍以及波束形成器系數(shù),確定至少一個固定波束形成器所對應(yīng)的第二信號能量;根據(jù)第一信號能量以及第二信號能量,確定待估計角度對應(yīng)的空間特征;根據(jù)空間特征生成目標(biāo)語音幀對應(yīng)的目標(biāo)控制信號。本申請還公開了一種基于人工智能的語音識別方法及裝置。本申請能夠分別確定來自各個待估計角度方向上的空間特征,基于空間特征生成相應(yīng)的控制信號,提升控制信號的準(zhǔn)確性和魯棒性,提高前處理系統(tǒng)對語音信號增強的性能。
技術(shù)領(lǐng)域
本申請涉及人工智能領(lǐng)域,尤其涉及信號生成的方法、基于人工智能的語音識別方法及裝置。
背景技術(shù)
隨著智能音箱等智能設(shè)備的流行,人機之間的語音交互頻率越來越高,而遠場語音交互作為一個重要的人機交互場景,受到了較大的關(guān)注。相對與近場語音來說,遠場語音主要的技術(shù)難點在于對于多徑反射、混響效應(yīng)及背景噪音干擾的處理。
為了實現(xiàn)更好的遠場語音交互性能,智能設(shè)備往往都裝備有多麥克風(fēng)陣列和前端語音處理系統(tǒng)。前端語音處理系統(tǒng)基于目標(biāo)人聲和干擾噪聲來源方向不同的假設(shè),往往會采用自適應(yīng)波束形成算法來抑制干擾噪聲,并增強目標(biāo)人聲。而自適應(yīng)波束形成算法的性能又極其依賴外界向其提供的控制信號。目前,控制信號是通過單聲道的話音激活檢測(Voice Activity Detector,VAD)產(chǎn)生,即通過信號能量強弱或與人聲模型的匹配程度區(qū)分輸入信號為人聲或非人聲,如果判斷為人聲則默認為是目標(biāo)人聲。
然而,在智能家居的應(yīng)用場景中往往會出現(xiàn)“雞尾酒會”情形,即有多個人聲或類人聲噪聲(例如電視噪聲)同時出現(xiàn),在這樣的場景下,導(dǎo)致單聲道VAD產(chǎn)生的控制信號準(zhǔn)確度較低,而控制信號的準(zhǔn)確性將極大影響前處理系統(tǒng)的整體性能,進而影響遠場喚醒和識別性能。
發(fā)明內(nèi)容
本申請實施例提供了一種信號生成的方法、基于人工智能的語音識別方法及裝置,能夠根據(jù)麥克風(fēng)陣列獲取到的語音輸入信號,分別確定來自各個待估計角度方向上的空間特征,基于空間特征生成相應(yīng)的控制信號,可以提升控制信號的準(zhǔn)確性和魯棒性,從而提高前處理系統(tǒng)對語音信號增強的性能。
有鑒于此,本申請第一方面提供一種信號生成的方法,包括:
當(dāng)通過麥克風(fēng)陣列獲取目標(biāo)語音幀對應(yīng)的語音輸入信號時,根據(jù)所述語音輸入信號獲取待估計角度對應(yīng)的第一信號能量,其中,所述麥克風(fēng)陣列包括多個麥克風(fēng),所述待估計角度在入射方位角范圍內(nèi);
根據(jù)所述入射方位角范圍以及波束形成器系數(shù),確定至少一個固定波束形成器所對應(yīng)的第二信號能量,其中,所述至少一個固定波束形成器均指向所述待估計角度,所述入射方位角范圍包括所述待估計角度;
根據(jù)所述第一信號能量以及所述第二信號能量,確定所述待估計角度對應(yīng)的空間特征;
根據(jù)所述空間特征生成所述目標(biāo)語音幀對應(yīng)的目標(biāo)控制信號,其中,所述目標(biāo)控制信號用于估計語音的方向。
本申請第二方面提供一種基于人工智能的語音識別方法,包括:
當(dāng)通過麥克風(fēng)陣列獲取目標(biāo)語音幀對應(yīng)的語音輸入信號時,根據(jù)所述語音輸入信號獲取待估計角度對應(yīng)的第一信號能量,其中,所述麥克風(fēng)陣列包括多個麥克風(fēng),所述待估計角度在入射方位角范圍內(nèi);
根據(jù)所述入射方位角范圍以及波束形成器系數(shù),確定至少一個固定波束形成器所對應(yīng)的第二信號能量,其中,所述至少一個固定波束形成器均指向所述待估計角度,所述入射方位角范圍包括所述待估計角度;
根據(jù)所述第一信號能量以及所述第二信號能量,確定所述待估計角度對應(yīng)的空間特征;
根據(jù)所述空間特征生成所述目標(biāo)語音幀對應(yīng)的目標(biāo)控制信號;
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于騰訊科技(深圳)有限公司,未經(jīng)騰訊科技(深圳)有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910838669.0/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 信號調(diào)制方法、信號調(diào)制裝置、信號解調(diào)方法和信號解調(diào)裝置
- 亮度信號/色信號分離裝置和亮度信號/色信號分離方法
- 信號調(diào)制方法、信號調(diào)制裝置、信號解調(diào)方法和信號解調(diào)裝置
- 信號調(diào)制方法、信號調(diào)制裝置、信號解調(diào)方法和信號解調(diào)裝置
- 雙耳信號的信號生成
- 雙耳信號的信號生成
- 信號處理裝置、信號處理方法、信號處理程序
- USBTYPEC信號轉(zhuǎn)HDMI信號的信號轉(zhuǎn)換線
- 信號盒(信號轉(zhuǎn)換)
- 信號調(diào)制方法、信號調(diào)制裝置、信號解調(diào)方法和信號解調(diào)裝置





