[發(fā)明專利]使用神經(jīng)網(wǎng)絡(luò)處理器生成帶寬增強的音頻信號的裝置、方法或計算機可讀存儲介質(zhì)有效

申請?zhí)枺?/td>	201880070135.1	申請日：	2018-04-13
公開（公告）號：	CN111386568B	公開（公告）日：	2023-10-13
發(fā)明（設(shè)計）人：	康斯坦丁·施密特;克里斯蒂安·烏勒;貝恩德·埃德勒	申請（專利權(quán)）人：	弗勞恩霍夫應(yīng)用研究促進協(xié)會
主分類號：	G10L21/0388	分類號：	G10L21/0388;G10L25/30;G10L19/005
代理公司：	北京清亦華知識產(chǎn)權(quán)代理事務(wù)所(普通合伙) 11201	代理人：	宋融冰
地址：	德國***	國省代碼：	暫無信息
權(quán)利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關(guān)鍵詞：	使用神經(jīng)網(wǎng)絡(luò) 處理器生成帶寬增強音頻信號裝置方法計算機可讀存儲介質(zhì)
鉆瓜網(wǎng) 技術(shù)展會專利詞庫專利權(quán)人專利榜在售專利公布日期熱門專利

【說明書】：

一種用于從具有輸入音頻信號頻率范圍的輸入音頻信號(50)生成帶寬增強的音頻信號的裝置，包括：原始信號發(fā)生器(10)，被配置用于生成具有增強頻率范圍的原始信號(60)，其中增強頻率范圍不包括在輸入音頻信號頻率范圍中；神經(jīng)網(wǎng)絡(luò)處理器(30)，被配置用于使用輸入音頻信號的輸入音頻信號頻率范圍和經(jīng)訓(xùn)練的神經(jīng)網(wǎng)絡(luò)(31)生成增強頻率范圍的參數(shù)表示(70)；以及原始信號處理器(20)，用于使用增強頻率范圍的參數(shù)表示(70)處理原始信號(60)，以獲得具有增強頻率范圍中的頻率分量的經(jīng)處理的原始信號(80)，其中經(jīng)處理的原始信號(80)或經(jīng)處理的原始信號和輸入音頻信號的輸入音頻信號頻率范圍表示帶寬增強的音頻信號。

技術(shù)領(lǐng)域

本發(fā)明涉及音頻處理，以及特別地，涉及用于音頻信號的帶寬增強技術(shù)，諸如帶寬擴展或智能間隙填充。

背景技術(shù)

當(dāng)今最常用的用于移動語音通信的編解碼器仍然是AMR-NB，其僅對從200到3400Hz的頻率(通常稱為窄頻帶(NB))進行編碼。然而，人類語音信號具有寬得多的帶寬，尤其是摩擦音通常具有其大部分能量在4kHz以上。限制語音的頻率范圍不僅聽起來不太舒適，而且也不太容易理解[1，2]。

像EVS[3]的現(xiàn)有技術(shù)音頻編解碼器能夠?qū)Ω鼘挼男盘栴l率范圍進行編碼，但是使用這些編解碼器將需要改變包括接收設(shè)備的整個通信網(wǎng)絡(luò)。這是巨大的努力并且已知持續(xù)了若干年。盲帶寬擴展(BBWE-也稱為人工帶寬擴展或盲帶寬擴張)能夠擴展信號的頻率范圍而無需額外的位。它們僅被應(yīng)用于解碼信號，并且不需要網(wǎng)絡(luò)或發(fā)送設(shè)備的任何適配。雖然是窄頻帶編解碼器的有限帶寬問題的吸引人的解決方案，但是許多系統(tǒng)未能改善語音信號的質(zhì)量。在對最新帶寬擴展的聯(lián)合評估中，12個系統(tǒng)中只有四個被管理顯著地改善對于所有測試的語言的感知的質(zhì)量[4]。

遵循語音產(chǎn)生的源濾波器模型，大多數(shù)帶寬擴展(盲目式或非盲目式)具有兩個主要構(gòu)造塊-激勵信號的生成和聲道形狀的估計。這也是提出的系統(tǒng)遵循的方法。用于生成激勵信號的常用技術(shù)是頻譜折疊、平移或非線性處理。聲道形狀可由高斯混合模型(GMM)、隱馬爾可夫模型(HMM)、神經(jīng)網(wǎng)絡(luò)或深度神經(jīng)網(wǎng)絡(luò)(DNN)生成。這些模型根據(jù)對語音信號計算的特征預(yù)測聲道形狀。

在[5]和[6]中，通過頻譜折疊生成激勵信號，以及聲道濾波器由HMM實現(xiàn)為時域中的全極點濾波器。首先，通過矢量量化創(chuàng)建包括上頻帶語音信號的幀上計算的線性預(yù)測系數(shù)(LPC)的碼本。在解碼器側(cè)，對解碼的語音信號計算特征，以及給定特征，使用HMM對碼本條目的條件概率進行建模。最終的包絡(luò)是所有碼本條目的加權(quán)和，概率是權(quán)重。在[6]中，神經(jīng)網(wǎng)絡(luò)額外地強調(diào)摩擦聲。

在[7]中，激勵信號也通過頻譜折疊生成，以及聲道通過神經(jīng)網(wǎng)絡(luò)建模，神經(jīng)網(wǎng)絡(luò)輸出在Mel濾波器組域中應(yīng)用于折疊的信號的增益。

在[8]中，DNN用于預(yù)測頻譜折疊的激勵信號的頻譜包絡(luò)(在此稱為成像的相位)。[9]中的系統(tǒng)還使用頻譜折疊的激勵信號，并且通過包括LSTM層的DNN整形包絡(luò)。使用音頻的若干幀作為用于DNN的輸入，這兩個系統(tǒng)具有對于實時電信來說過高的算法延遲。

最近的方法使用類似于WaveNet[11]的體系結(jié)構(gòu)，以0到32ms的算法延遲直接對時域中丟失的信號進行建模[10]。

當(dāng)語音被發(fā)送用于電信時，其頻率范圍通常受到例如頻帶限制和下采樣的限制。如果這種頻帶限制是從信號中去除太多帶寬，則語音的感知的質(zhì)量顯著降低。克服這個問題的一種方法是通過發(fā)送更多的帶寬暗示編解碼器的變化。這通常涉及整個網(wǎng)絡(luò)基礎(chǔ)設(shè)施的改變，這是非常昂貴的并且可以持續(xù)若干年。

擴展頻率的另一方式是通過帶寬擴展人為地擴展頻率范圍。在帶寬擴展為盲目的情況下，沒有邊信息從編碼器傳送到解碼器。不必對發(fā)送基礎(chǔ)設(shè)施進行改變。

發(fā)明內(nèi)容

本發(fā)明的目的是提供一種用于生成帶寬增強的音頻信號的改進的概念。

下載完整專利技術(shù)內(nèi)容需要扣除積分，VIP會員可以免費下載。

免登錄下載普通用戶下載升級VIP會員，免費下載

該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息，商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于弗勞恩霍夫應(yīng)用研究促進協(xié)會，未經(jīng)弗勞恩霍夫應(yīng)用研究促進協(xié)會許可，擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作，請聯(lián)系【客服】

本文鏈接：http://www.szxzyx.cn/pat/books/201880070135.1/2.html，轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。

同類專利

專利分類

G 物理

G10 樂器；聲學(xué)
G10L 語音分析或合成；語音識別；音頻分析或處理
G10L21-00 為了改變語音信號的質(zhì)量或其可識度而處理語音信號，以產(chǎn)生另一種可聽的或非可聽的信號，例如視覺信號或觸覺信號
G10L21-02 .語音增強，例如降低噪聲或消除回聲
G10L21-04 .時間壓縮或擴展
G10L21-06 .將語音轉(zhuǎn)換成非可聽表達(dá)形式，例如語音可視化、觸覺輔助的語音處理

免登錄下載普通用戶下載升級VIP會員，免費下載

專利文獻(xiàn)下載

說明：

1、專利原文基于中國國家知識產(chǎn)權(quán)局專利說明書；

2、支持發(fā)明專利、實用新型專利、外觀設(shè)計專利（升級中）；

3、專利數(shù)據(jù)每周兩次同步更新，支持Adobe PDF格式；

4、內(nèi)容包括專利技術(shù)的結(jié)構(gòu)示意圖、流程工藝圖或技術(shù)構(gòu)造圖；

5、已全新升級為極速版,下載速度顯著提升！歡迎使用！

請您登陸后，進行下載，點擊【登陸】【注冊】