[發(fā)明專(zhuān)利]音頻信號(hào)處理方法及裝置在審
| 申請(qǐng)?zhí)枺?/td> | 202210141643.2 | 申請(qǐng)日: | 2022-02-16 |
| 公開(kāi)(公告)號(hào): | CN114203163A | 公開(kāi)(公告)日: | 2022-03-18 |
| 發(fā)明(設(shè)計(jì))人: | 胡貝貝;夏日升;許劍峰 | 申請(qǐng)(專(zhuān)利權(quán))人: | 榮耀終端有限公司 |
| 主分類(lèi)號(hào): | G10L15/02 | 分類(lèi)號(hào): | G10L15/02;G10L15/06;G10L15/16 |
| 代理公司: | 深圳市深佳知識(shí)產(chǎn)權(quán)代理事務(wù)所(普通合伙) 44285 | 代理人: | 戴皓 |
| 地址: | 518040 廣東省深圳市福田區(qū)香蜜湖街道*** | 國(guó)省代碼: | 廣東;44 |
| 權(quán)利要求書(shū): | 查看更多 | 說(shuō)明書(shū): | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 音頻 信號(hào) 處理 方法 裝置 | ||
本申請(qǐng)?zhí)峁┝艘环N音頻信號(hào)處理方法及裝置,該方法采用基于神經(jīng)網(wǎng)絡(luò)的人聲提取模型,從原始立體聲信號(hào)中提取出左、右聲道背景聲信號(hào)和人聲信號(hào)。對(duì)左、右聲道背景聲信號(hào)進(jìn)行聲場(chǎng)擴(kuò)展得到擴(kuò)展背景聲信號(hào);進(jìn)一步,對(duì)人聲信號(hào)進(jìn)行語(yǔ)音檢測(cè)獲得目標(biāo)人聲信號(hào)。最后,對(duì)擴(kuò)展背景聲信號(hào)和目標(biāo)人聲信號(hào)進(jìn)行混音處理,得到目標(biāo)輸出音頻信號(hào)。可見(jiàn),基于神經(jīng)網(wǎng)絡(luò)的人聲提取模型能夠提取出比較純凈的人聲信號(hào),從而獲得比較純凈的背景聲信號(hào),對(duì)純凈的背景聲信號(hào)進(jìn)行聲場(chǎng)擴(kuò)展,避免了人聲變散變虛的問(wèn)題,提高了聲場(chǎng)擴(kuò)展效果。而且,提高了人聲清晰度和聲場(chǎng)擴(kuò)展效果,進(jìn)一步提高了用戶(hù)的聽(tīng)覺(jué)體驗(yàn)。
技術(shù)領(lǐng)域
本申請(qǐng)涉及音頻處理技術(shù)領(lǐng)域,尤其涉及音頻信號(hào)處理方法及裝置。
背景技術(shù)
為了提升用戶(hù)的影音感受,智能終端(如智能手機(jī)、平板電腦、智慧屏等)設(shè)置有至少兩個(gè)揚(yáng)聲器,從而實(shí)現(xiàn)立體聲播放。如圖1所示,以智能手機(jī)為例,手機(jī)的頂部和底部分別設(shè)置有揚(yáng)聲器,用戶(hù)用揚(yáng)聲器播放立體聲信號(hào)時(shí),經(jīng)過(guò)兩個(gè)揚(yáng)聲器傳出不同的聲音信號(hào),如,從頂部揚(yáng)聲器輸出的第一聲音信號(hào)傳到用戶(hù)的右耳,從底部揚(yáng)聲器輸出的第二聲音信號(hào)傳到用戶(hù)的左耳,使用戶(hù)兩只耳朵聽(tīng)到不同的聲音信息,從而實(shí)現(xiàn)立體聲播放。
為了進(jìn)一步呈現(xiàn)沉浸式效果,終端設(shè)備還會(huì)通過(guò)軟件處理對(duì)聲場(chǎng)進(jìn)行擴(kuò)展。但目前的聲場(chǎng)擴(kuò)展算法可以使聲場(chǎng)寬度變寬,但是聲音中的人聲信號(hào)經(jīng)過(guò)聲場(chǎng)擴(kuò)展后,會(huì)導(dǎo)致人聲的聲音清晰度下降、聲音變渾濁。
發(fā)明內(nèi)容
有鑒于此,本申請(qǐng)?zhí)峁┝艘环N音頻信號(hào)處理方法及裝置,以解決至少部分上述的技術(shù)問(wèn)題,其公開(kāi)的技術(shù)方案如下:
第一方面,本申請(qǐng)?zhí)峁┝艘环N音頻信號(hào)處理方法,應(yīng)用于電子設(shè)備,該方法包括:將原始立體聲信號(hào)輸入基于神經(jīng)網(wǎng)絡(luò)的人聲提取模型,進(jìn)行人聲信號(hào)識(shí)別和提取,獲得第一人聲信號(hào)和背景聲信號(hào),背景聲信號(hào)包括左聲道背景聲信號(hào)和右聲道背景聲信號(hào);擴(kuò)展背景聲信號(hào)的聲場(chǎng)獲得擴(kuò)展背景聲信號(hào);對(duì)第一人聲信號(hào)進(jìn)行語(yǔ)音檢測(cè),獲得目標(biāo)人聲信號(hào);將擴(kuò)展背景聲信號(hào)和目標(biāo)人聲信號(hào)進(jìn)行混音處理,得到目標(biāo)輸出音頻信號(hào)。可見(jiàn),該方案基于神經(jīng)網(wǎng)絡(luò)的人聲提取模型能夠提取出比較純凈的人聲信號(hào),從而獲得比較純凈的背景聲信號(hào),對(duì)純凈的背景聲信號(hào)進(jìn)行聲場(chǎng)擴(kuò)展,避免了人聲變散變虛的問(wèn)題,提高了聲場(chǎng)擴(kuò)展效果,提高了用戶(hù)的聽(tīng)覺(jué)體驗(yàn)。
在一種可能的實(shí)現(xiàn)方式中,人聲提取模型為頻域的人聲提取模型;將原始立體聲信號(hào)輸入基于神經(jīng)網(wǎng)絡(luò)的人聲提取模型,進(jìn)行人聲信號(hào)識(shí)別和提取,獲得第一人聲信號(hào)、左聲道背景聲信號(hào)和右聲道背景聲信號(hào),包括:將原始立體聲信號(hào)進(jìn)行時(shí)頻轉(zhuǎn)換獲得頻域立體聲信號(hào);將頻域立體聲信號(hào)輸入至人聲提取模型,提取頻域立體聲信號(hào)對(duì)應(yīng)的頻譜特征,并分析頻譜特征獲得頻域立體聲信號(hào)對(duì)應(yīng)的人聲掩碼和背景聲掩碼,人聲掩碼表征頻域立體聲信號(hào)中每一幀聲音信號(hào)是否是人聲信號(hào),背景聲掩碼表征頻域立體聲信號(hào)中每一幀聲音信號(hào)是否是背景聲信號(hào);將頻域立體聲信號(hào)對(duì)應(yīng)的向量與人聲掩碼進(jìn)行向量乘法運(yùn)算,獲得頻域立體聲信號(hào)中的頻域人聲信號(hào);將頻域立體聲信號(hào)與背景聲掩碼進(jìn)行向量乘法運(yùn)算,獲得頻域立體聲信號(hào)包含的左聲道頻域背景聲信號(hào)和右聲道頻域背景聲信號(hào);將頻域人聲信號(hào)進(jìn)行頻時(shí)轉(zhuǎn)換獲得時(shí)域的人聲信號(hào);將左聲道頻域背景聲信號(hào)和右聲道頻域背景聲信號(hào)進(jìn)行頻時(shí)轉(zhuǎn)換獲得時(shí)域的背景聲信號(hào)。
在另一種可能的實(shí)現(xiàn)方式中,人聲提取模型能夠處理時(shí)域的音頻信號(hào);將原始立體聲信號(hào)輸入基于神經(jīng)網(wǎng)絡(luò)的人聲提取模型,進(jìn)行人聲信號(hào)識(shí)別和提取,獲得第一人聲信號(hào)、左聲道背景聲信號(hào)和右聲道背景聲信號(hào),包括:將原始立體聲信號(hào)對(duì)應(yīng)的向量輸入至人聲提取模型,提取原始立體聲信號(hào)的特征向量,并分析特征向量,獲得原始立體聲信號(hào)對(duì)應(yīng)的人聲掩碼和背景聲掩碼,人聲掩碼表征立體聲信號(hào)中每一幀聲音信號(hào)是否是人聲信號(hào),背景聲掩碼表征頻域立體聲信號(hào)中每一幀聲音信號(hào)是否是背景聲信號(hào);將原始立體聲信號(hào)的特征向量與人聲掩碼進(jìn)行向量乘法運(yùn)算,獲得人聲信號(hào);將原始立體聲信號(hào)的特征向量與背景聲掩碼進(jìn)行向量乘法運(yùn)算,獲得左聲道背景聲信號(hào)和右聲道背景聲信號(hào)。
該專(zhuān)利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專(zhuān)利權(quán)人授權(quán)。該專(zhuān)利全部權(quán)利屬于榮耀終端有限公司,未經(jīng)榮耀終端有限公司許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買(mǎi)此專(zhuān)利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202210141643.2/2.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專(zhuān)利網(wǎng)。
- 同類(lèi)專(zhuān)利
- 專(zhuān)利分類(lèi)
G10L 語(yǔ)音分析或合成;語(yǔ)音識(shí)別;音頻分析或處理
G10L15-00 語(yǔ)音識(shí)別
G10L15-02 .語(yǔ)音識(shí)別的特征提取;識(shí)別單位的選擇
G10L15-04 .分段或字極限檢測(cè)
G10L15-06 .創(chuàng)建基準(zhǔn)模板;訓(xùn)練語(yǔ)音識(shí)別系統(tǒng),例如對(duì)說(shuō)話(huà)者聲音特征的適應(yīng)
G10L15-08 .語(yǔ)音分類(lèi)或檢索
G10L15-20 .專(zhuān)門(mén)適用于不利環(huán)境
- 自動(dòng)配置藍(lán)牙A2DP傳輸音頻編碼格式的方法和系統(tǒng)
- 一種多路音頻處理方法、音頻播放終端及音頻接收裝置
- 一種音頻處理方法、裝置及終端設(shè)備
- 一種音頻質(zhì)量的檢測(cè)方法、裝置、電子設(shè)備及存儲(chǔ)介質(zhì)
- 音頻分離方法、裝置、設(shè)備及計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)
- 一種音頻播放方法、裝置、以及計(jì)算機(jī)存儲(chǔ)介質(zhì)
- 一種音頻錄制系統(tǒng)
- 一種音頻共享系統(tǒng)及方法
- 音頻樣本生成方法、裝置、計(jì)算機(jī)設(shè)備及存儲(chǔ)介質(zhì)
- 音頻處理方法和裝置
- 信號(hào)調(diào)制方法、信號(hào)調(diào)制裝置、信號(hào)解調(diào)方法和信號(hào)解調(diào)裝置
- 亮度信號(hào)/色信號(hào)分離裝置和亮度信號(hào)/色信號(hào)分離方法
- 信號(hào)調(diào)制方法、信號(hào)調(diào)制裝置、信號(hào)解調(diào)方法和信號(hào)解調(diào)裝置
- 信號(hào)調(diào)制方法、信號(hào)調(diào)制裝置、信號(hào)解調(diào)方法和信號(hào)解調(diào)裝置
- 雙耳信號(hào)的信號(hào)生成
- 雙耳信號(hào)的信號(hào)生成
- 信號(hào)處理裝置、信號(hào)處理方法、信號(hào)處理程序
- USBTYPEC信號(hào)轉(zhuǎn)HDMI信號(hào)的信號(hào)轉(zhuǎn)換線(xiàn)
- 信號(hào)盒(信號(hào)轉(zhuǎn)換)
- 信號(hào)調(diào)制方法、信號(hào)調(diào)制裝置、信號(hào)解調(diào)方法和信號(hào)解調(diào)裝置
- 一種數(shù)據(jù)庫(kù)讀寫(xiě)分離的方法和裝置
- 一種手機(jī)動(dòng)漫人物及背景創(chuàng)作方法
- 一種通訊綜合測(cè)試終端的測(cè)試方法
- 一種服裝用人體測(cè)量基準(zhǔn)點(diǎn)的獲取方法
- 系統(tǒng)升級(jí)方法及裝置
- 用于虛擬和接口方法調(diào)用的裝置和方法
- 線(xiàn)程狀態(tài)監(jiān)控方法、裝置、計(jì)算機(jī)設(shè)備和存儲(chǔ)介質(zhì)
- 一種JAVA智能卡及其虛擬機(jī)組件優(yōu)化方法
- 檢測(cè)程序中方法耗時(shí)的方法、裝置及存儲(chǔ)介質(zhì)
- 函數(shù)的執(zhí)行方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)





