[發(fā)明專利]用于音頻丟包修復的神經(jīng)網(wǎng)絡(luò)訓練方法、裝置和系統(tǒng)在審
| 申請?zhí)枺?/td> | 202010200410.6 | 申請日: | 2020-03-20 |
| 公開(公告)號: | CN111883172A | 公開(公告)日: | 2020-11-03 |
| 發(fā)明(設(shè)計)人: | 肖全之;閆玉鳳;黃榮均;方桂萍 | 申請(專利權(quán))人: | 珠海市杰理科技股份有限公司 |
| 主分類號: | G10L25/30 | 分類號: | G10L25/30;G10L25/51;G10L25/48;G10L21/007 |
| 代理公司: | 深圳市君之泉知識產(chǎn)權(quán)代理有限公司 44366 | 代理人: | 程苗 |
| 地址: | 519085 廣東省珠海市吉*** | 國省代碼: | 廣東;44 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 用于 音頻 修復 神經(jīng)網(wǎng)絡(luò) 訓練 方法 裝置 系統(tǒng) | ||
本發(fā)明公開了一種用于音頻丟包修復的神經(jīng)網(wǎng)絡(luò)訓練方法、裝置和系統(tǒng),其中,所述訓練方法包括:獲取待學習的語音信號樣本數(shù)據(jù);在每組N幀語音信號幀中剔除第一預設(shè)位置的語音信號幀得到第一輸入樣本;在每組N幀語音信號幀中剔除第二預設(shè)位置的語音信號幀得到第二輸入樣本;將第一輸入樣本和第二輸入樣本分別輸入至第一修復模型和第二修復模型,以分別訓練第一修復模型和第二修復模型。本發(fā)明實施例的方案訓練了不同的修復模型,使得在語音數(shù)據(jù)修復過程中能夠適應(yīng)選擇修復模型,對丟失語音信號幀的修復更有針對性,繼而,提高修復準確率。
技術(shù)領(lǐng)域
本發(fā)明涉及音頻數(shù)據(jù)處理領(lǐng)域,具體涉及一種用于音頻丟包修復的神經(jīng)網(wǎng)絡(luò)訓練方法、裝置和系統(tǒng)。
背景技術(shù)
隨著影音設(shè)備、移動通信的普及,藍牙技術(shù)的發(fā)展,人們越來越多地采用無線收發(fā)數(shù)據(jù)的方式來進行影音數(shù)據(jù)的無線傳輸,例如藍牙音箱、藍牙耳機、藍牙鼠標、藍牙鍵盤、藍牙遙控器等越多的藍牙產(chǎn)品出現(xiàn)在人們的生活中。
其中藍牙音箱、藍牙耳機主要應(yīng)用了藍牙通話及藍牙音樂播放等功能,而藍牙在傳輸這些音頻的時候是將音頻數(shù)據(jù)以一個數(shù)據(jù)包接一個數(shù)據(jù)包的形式通過主機(手機、電腦等)傳輸給藍牙播放設(shè)備播放。在傳輸過程中,由于是無線傳輸往往會受到其它無線信號的干擾、或者由于障礙物或距離的原因、導致傳輸過程數(shù)據(jù)包的丟失,如果不對這些數(shù)據(jù)進行修復,那么在播放端就會出現(xiàn)不連續(xù)或者是雜音。特別是藍牙通話模式下,丟失信號會直接影響電話通話的體驗感受,嚴重時甚至影響溝通。因此需要對藍牙丟包數(shù)據(jù)進行修復。
針對藍牙丟包數(shù)據(jù)的修復,常見的傳統(tǒng)修復方式有:
1.靜音處理,對丟失的數(shù)據(jù)用靜音數(shù)據(jù)替換,避免其它刺耳的雜音。這種靜音處理方式,方法簡單但性能有限,只能避免雜音但丟失的信號是沒有恢復的。
2.波形替換,通過語音信號的基音周期或其它相關(guān)算法計算相關(guān)信號,用相似信號替換。其原理是基于語音短時平穩(wěn),可以用相似波形替換,但是現(xiàn)實語音信號也是存在元音、輔音切換、以及語速、語調(diào)的不停變化的,所以用相似信號替換很難恢復這種變化信號。另外語音信號能量也是在不停變化的,要較好的恢復出來也需要更多的額外處理,當信號丟失比較嚴重的時候,由于相似信號的重復使用,也會導致機器聲的產(chǎn)生。
為了實現(xiàn)對丟失的音頻數(shù)據(jù)包進行修復,現(xiàn)有技術(shù)中,常利用高級算法進行預測、修復,例如,采用神經(jīng)網(wǎng)絡(luò)學習音頻數(shù)據(jù)幀與幀之間的非線性模型,而后,根據(jù)非線性模型在頻域上重構(gòu)丟失的數(shù)據(jù),以此來獲得當前丟失數(shù)據(jù)的時域估計;這種構(gòu)建非線性模型的方式,通常利用當前音頻數(shù)據(jù)幀之前已接收的音頻數(shù)據(jù)幀來學習模型,由此,預測得到當前丟失的數(shù)據(jù),也就是在時域上根據(jù)前面的幀來預測后面的音頻數(shù)據(jù)幀。這種方式雖然能夠預測、估計丟失的數(shù)據(jù),從而對丟失的數(shù)據(jù)進行修復,但是,當之前的音頻數(shù)據(jù)幀也存在丟包現(xiàn)象時,會導致神經(jīng)網(wǎng)絡(luò)學習的非線性模型不夠精確,從而導致基于該模型無法準確地預測丟失的音頻數(shù)據(jù)幀。
因此,如何提供新的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)模型來修復丟失的音頻數(shù)據(jù)包,提高修復準確率成為亟待解決的技術(shù)問題。
發(fā)明內(nèi)容
基于上述現(xiàn)狀,本發(fā)明的主要目的在于提供一種用于音頻丟包修復的神經(jīng)網(wǎng)絡(luò)訓練方法、裝置和系統(tǒng),以修復丟失的音頻數(shù)據(jù)包,提高修復準確率。
為實現(xiàn)上述目的,本發(fā)明采用的技術(shù)方案如下:
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于珠海市杰理科技股份有限公司,未經(jīng)珠海市杰理科技股份有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010200410.6/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 硬件神經(jīng)網(wǎng)絡(luò)轉(zhuǎn)換方法、計算裝置、軟硬件協(xié)作系統(tǒng)
- 生成較大神經(jīng)網(wǎng)絡(luò)
- 神經(jīng)網(wǎng)絡(luò)的生成方法、生成裝置和電子設(shè)備
- 一種舌診方法、裝置、計算設(shè)備及計算機存儲介質(zhì)
- 學習神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)
- 脈沖神經(jīng)網(wǎng)絡(luò)轉(zhuǎn)換方法及相關(guān)轉(zhuǎn)換芯片
- 圖像處理方法、裝置、可讀存儲介質(zhì)和計算機設(shè)備
- 一種適應(yīng)目標數(shù)據(jù)集的網(wǎng)絡(luò)模型微調(diào)方法、系統(tǒng)、終端和存儲介質(zhì)
- 用于重構(gòu)人工神經(jīng)網(wǎng)絡(luò)的處理器及其操作方法、電氣設(shè)備
- 一種圖像神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)的優(yōu)化方法及裝置





