[發(fā)明專(zhuān)利]音頻信號(hào)處理方法及裝置在審

申請(qǐng)?zhí)枺?/td>	202210141643.2	申請(qǐng)日：	2022-02-16
公開(kāi)（公告）號(hào)：	CN114203163A	公開(kāi)（公告）日：	2022-03-18
發(fā)明（設(shè)計(jì)）人：	胡貝貝;夏日升;許劍峰	申請(qǐng)（專(zhuān)利權(quán)）人：	榮耀終端有限公司
主分類(lèi)號(hào)：	G10L15/02	分類(lèi)號(hào)：	G10L15/02;G10L15/06;G10L15/16
代理公司：	深圳市深佳知識(shí)產(chǎn)權(quán)代理事務(wù)所(普通合伙) 44285	代理人：	戴皓
地址：	518040 廣東省深圳市福田區(qū)香蜜湖街道***	國(guó)省代碼：	廣東;44
權(quán)利要求書(shū)：	查看更多	說(shuō)明書(shū)：	查看更多
摘要：
搜索關(guān)鍵詞：	音頻信號(hào) 處理方法裝置
鉆瓜網(wǎng) 技術(shù)展會(huì) 專(zhuān)利詞庫(kù) 專(zhuān)利權(quán)人專(zhuān)利榜在售專(zhuān)利公布日期熱門(mén)專(zhuān)利

【說(shuō)明書(shū)】：

本申請(qǐng)?zhí)峁┝艘环N音頻信號(hào)處理方法及裝置，該方法采用基于神經(jīng)網(wǎng)絡(luò)的人聲提取模型，從原始立體聲信號(hào)中提取出左、右聲道背景聲信號(hào)和人聲信號(hào)。對(duì)左、右聲道背景聲信號(hào)進(jìn)行聲場(chǎng)擴(kuò)展得到擴(kuò)展背景聲信號(hào)；進(jìn)一步，對(duì)人聲信號(hào)進(jìn)行語(yǔ)音檢測(cè)獲得目標(biāo)人聲信號(hào)。最后，對(duì)擴(kuò)展背景聲信號(hào)和目標(biāo)人聲信號(hào)進(jìn)行混音處理，得到目標(biāo)輸出音頻信號(hào)。可見(jiàn)，基于神經(jīng)網(wǎng)絡(luò)的人聲提取模型能夠提取出比較純凈的人聲信號(hào)，從而獲得比較純凈的背景聲信號(hào)，對(duì)純凈的背景聲信號(hào)進(jìn)行聲場(chǎng)擴(kuò)展，避免了人聲變散變虛的問(wèn)題，提高了聲場(chǎng)擴(kuò)展效果。而且，提高了人聲清晰度和聲場(chǎng)擴(kuò)展效果，進(jìn)一步提高了用戶(hù)的聽(tīng)覺(jué)體驗(yàn)。

技術(shù)領(lǐng)域

本申請(qǐng)涉及音頻處理技術(shù)領(lǐng)域，尤其涉及音頻信號(hào)處理方法及裝置。

背景技術(shù)

為了提升用戶(hù)的影音感受，智能終端（如智能手機(jī)、平板電腦、智慧屏等）設(shè)置有至少兩個(gè)揚(yáng)聲器，從而實(shí)現(xiàn)立體聲播放。如圖1所示，以智能手機(jī)為例，手機(jī)的頂部和底部分別設(shè)置有揚(yáng)聲器，用戶(hù)用揚(yáng)聲器播放立體聲信號(hào)時(shí)，經(jīng)過(guò)兩個(gè)揚(yáng)聲器傳出不同的聲音信號(hào)，如，從頂部揚(yáng)聲器輸出的第一聲音信號(hào)傳到用戶(hù)的右耳，從底部揚(yáng)聲器輸出的第二聲音信號(hào)傳到用戶(hù)的左耳，使用戶(hù)兩只耳朵聽(tīng)到不同的聲音信息，從而實(shí)現(xiàn)立體聲播放。

為了進(jìn)一步呈現(xiàn)沉浸式效果，終端設(shè)備還會(huì)通過(guò)軟件處理對(duì)聲場(chǎng)進(jìn)行擴(kuò)展。但目前的聲場(chǎng)擴(kuò)展算法可以使聲場(chǎng)寬度變寬，但是聲音中的人聲信號(hào)經(jīng)過(guò)聲場(chǎng)擴(kuò)展后，會(huì)導(dǎo)致人聲的聲音清晰度下降、聲音變渾濁。

發(fā)明內(nèi)容

有鑒于此，本申請(qǐng)?zhí)峁┝艘环N音頻信號(hào)處理方法及裝置，以解決至少部分上述的技術(shù)問(wèn)題，其公開(kāi)的技術(shù)方案如下：

第一方面，本申請(qǐng)?zhí)峁┝艘环N音頻信號(hào)處理方法，應(yīng)用于電子設(shè)備，該方法包括：將原始立體聲信號(hào)輸入基于神經(jīng)網(wǎng)絡(luò)的人聲提取模型，進(jìn)行人聲信號(hào)識(shí)別和提取，獲得第一人聲信號(hào)和背景聲信號(hào)，背景聲信號(hào)包括左聲道背景聲信號(hào)和右聲道背景聲信號(hào)；擴(kuò)展背景聲信號(hào)的聲場(chǎng)獲得擴(kuò)展背景聲信號(hào)；對(duì)第一人聲信號(hào)進(jìn)行語(yǔ)音檢測(cè)，獲得目標(biāo)人聲信號(hào)；將擴(kuò)展背景聲信號(hào)和目標(biāo)人聲信號(hào)進(jìn)行混音處理，得到目標(biāo)輸出音頻信號(hào)。可見(jiàn)，該方案基于神經(jīng)網(wǎng)絡(luò)的人聲提取模型能夠提取出比較純凈的人聲信號(hào)，從而獲得比較純凈的背景聲信號(hào)，對(duì)純凈的背景聲信號(hào)進(jìn)行聲場(chǎng)擴(kuò)展，避免了人聲變散變虛的問(wèn)題，提高了聲場(chǎng)擴(kuò)展效果，提高了用戶(hù)的聽(tīng)覺(jué)體驗(yàn)。

在一種可能的實(shí)現(xiàn)方式中，人聲提取模型為頻域的人聲提取模型；將原始立體聲信號(hào)輸入基于神經(jīng)網(wǎng)絡(luò)的人聲提取模型，進(jìn)行人聲信號(hào)識(shí)別和提取，獲得第一人聲信號(hào)、左聲道背景聲信號(hào)和右聲道背景聲信號(hào)，包括：將原始立體聲信號(hào)進(jìn)行時(shí)頻轉(zhuǎn)換獲得頻域立體聲信號(hào)；將頻域立體聲信號(hào)輸入至人聲提取模型，提取頻域立體聲信號(hào)對(duì)應(yīng)的頻譜特征，并分析頻譜特征獲得頻域立體聲信號(hào)對(duì)應(yīng)的人聲掩碼和背景聲掩碼，人聲掩碼表征頻域立體聲信號(hào)中每一幀聲音信號(hào)是否是人聲信號(hào)，背景聲掩碼表征頻域立體聲信號(hào)中每一幀聲音信號(hào)是否是背景聲信號(hào)；將頻域立體聲信號(hào)對(duì)應(yīng)的向量與人聲掩碼進(jìn)行向量乘法運(yùn)算，獲得頻域立體聲信號(hào)中的頻域人聲信號(hào)；將頻域立體聲信號(hào)與背景聲掩碼進(jìn)行向量乘法運(yùn)算，獲得頻域立體聲信號(hào)包含的左聲道頻域背景聲信號(hào)和右聲道頻域背景聲信號(hào)；將頻域人聲信號(hào)進(jìn)行頻時(shí)轉(zhuǎn)換獲得時(shí)域的人聲信號(hào)；將左聲道頻域背景聲信號(hào)和右聲道頻域背景聲信號(hào)進(jìn)行頻時(shí)轉(zhuǎn)換獲得時(shí)域的背景聲信號(hào)。

在另一種可能的實(shí)現(xiàn)方式中，人聲提取模型能夠處理時(shí)域的音頻信號(hào)；將原始立體聲信號(hào)輸入基于神經(jīng)網(wǎng)絡(luò)的人聲提取模型，進(jìn)行人聲信號(hào)識(shí)別和提取，獲得第一人聲信號(hào)、左聲道背景聲信號(hào)和右聲道背景聲信號(hào)，包括：將原始立體聲信號(hào)對(duì)應(yīng)的向量輸入至人聲提取模型，提取原始立體聲信號(hào)的特征向量，并分析特征向量，獲得原始立體聲信號(hào)對(duì)應(yīng)的人聲掩碼和背景聲掩碼，人聲掩碼表征立體聲信號(hào)中每一幀聲音信號(hào)是否是人聲信號(hào)，背景聲掩碼表征頻域立體聲信號(hào)中每一幀聲音信號(hào)是否是背景聲信號(hào)；將原始立體聲信號(hào)的特征向量與人聲掩碼進(jìn)行向量乘法運(yùn)算，獲得人聲信號(hào)；將原始立體聲信號(hào)的特征向量與背景聲掩碼進(jìn)行向量乘法運(yùn)算，獲得左聲道背景聲信號(hào)和右聲道背景聲信號(hào)。

下載完整專(zhuān)利技術(shù)內(nèi)容需要扣除積分，VIP會(huì)員可以免費(fèi)下載。

免登錄下載普通用戶(hù)下載升級(jí)VIP會(huì)員，免費(fèi)下載

該專(zhuān)利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息，商用須獲得專(zhuān)利權(quán)人授權(quán)。該專(zhuān)利全部權(quán)利屬于榮耀終端有限公司，未經(jīng)榮耀終端有限公司許可，擅自商用是侵權(quán)行為。如果您想購(gòu)買(mǎi)此專(zhuān)利、獲得商業(yè)授權(quán)和技術(shù)合作，請(qǐng)聯(lián)系【客服】

本文鏈接：http://www.szxzyx.cn/pat/books/202210141643.2/2.html，轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專(zhuān)利網(wǎng)。

同類(lèi)專(zhuān)利

專(zhuān)利分類(lèi)

G 物理

G10 樂(lè)器；聲學(xué)
G10L 語(yǔ)音分析或合成；語(yǔ)音識(shí)別；音頻分析或處理
G10L15-00 語(yǔ)音識(shí)別
G10L15-02 .語(yǔ)音識(shí)別的特征提取；識(shí)別單位的選擇
G10L15-04 .分段或字極限檢測(cè)
G10L15-06 .創(chuàng)建基準(zhǔn)模板；訓(xùn)練語(yǔ)音識(shí)別系統(tǒng)，例如對(duì)說(shuō)話(huà)者聲音特征的適應(yīng)
G10L15-08 .語(yǔ)音分類(lèi)或檢索
G10L15-20 .專(zhuān)門(mén)適用于不利環(huán)境

免登錄下載普通用戶(hù)下載升級(jí)VIP會(huì)員，免費(fèi)下載

專(zhuān)利文獻(xiàn)下載

說(shuō)明：

1、專(zhuān)利原文基于中國(guó)國(guó)家知識(shí)產(chǎn)權(quán)局專(zhuān)利說(shuō)明書(shū)；

2、支持發(fā)明專(zhuān)利、實(shí)用新型專(zhuān)利、外觀設(shè)計(jì)專(zhuān)利（升級(jí)中）；

3、專(zhuān)利數(shù)據(jù)每周兩次同步更新，支持Adobe PDF格式；

4、內(nèi)容包括專(zhuān)利技術(shù)的結(jié)構(gòu)示意圖、流程工藝圖或技術(shù)構(gòu)造圖；

5、已全新升級(jí)為極速版,下載速度顯著提升！歡迎使用！

請(qǐng)您登陸后，進(jìn)行下載，點(diǎn)擊【登陸】【注冊(cè)】