[發(fā)明專利]音頻處理方法和裝置、音頻處理模型的訓(xùn)練方法和裝置在審

申請?zhí)枺?/td>	202210887195.0	申請日：	2022-07-26
公開（公告）號：	CN115167807A	公開（公告）日：	2022-10-11
發(fā)明（設(shè)計）人：	鄭羲光;張晨;邢文浩	申請（專利權(quán)）人：	北京達(dá)佳互聯(lián)信息技術(shù)有限公司
主分類號：	G06F3/16	分類號：	G06F3/16
代理公司：	北京銘碩知識產(chǎn)權(quán)代理有限公司 11286	代理人：	蘇銀虹;王兆賡
地址：	100085 北京市海淀***	國省代碼：	北京;11
權(quán)利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關(guān)鍵詞：	音頻處理方法裝置模型訓(xùn)練
鉆瓜網(wǎng) 技術(shù)展會專利詞庫專利權(quán)人專利榜在售專利公布日期熱門專利

【說明書】：

本公開關(guān)于一種音頻處理方法和裝置、音頻處理模型的訓(xùn)練方法和裝置，音頻處理方法包括：在接收目標(biāo)音頻的多個音頻包的過程中，獲取網(wǎng)絡(luò)服務(wù)質(zhì)量特征；將網(wǎng)絡(luò)服務(wù)質(zhì)量特征輸入音頻處理模型，得到推薦長度；其中，音頻處理模型是根據(jù)音頻樣本、接收音頻樣本過程中獲取的網(wǎng)絡(luò)服務(wù)質(zhì)量特征、音頻樣本經(jīng)抖動緩沖處理得到的接收音頻訓(xùn)練得到的；根據(jù)推薦長度，調(diào)整抖動緩沖區(qū)；根據(jù)調(diào)整后的抖動緩沖區(qū)，對接收到的音頻包進(jìn)行抖動緩沖處理。

技術(shù)領(lǐng)域

本公開涉及音頻傳輸技術(shù)領(lǐng)域，尤其涉及一種音頻處理方法和裝置、音頻處理模型的訓(xùn)練方法和裝置。

背景技術(shù)

在音頻傳輸領(lǐng)域，例如基于VOIP(Voice Over Internet Protocol)的實時語音通信應(yīng)用中，由于網(wǎng)絡(luò)的不穩(wěn)定(抖動和丟包)，通常會在接收端運用一個jitter buffer(抖動緩沖區(qū))起到緩沖的目的，以保持接收端音頻播放的連續(xù)性。

相關(guān)技術(shù)中，可以使用信號處理的方式動態(tài)調(diào)整jitter buffer的長度。該方式取最近的一個時間窗口，統(tǒng)計該窗口內(nèi)IAT(Inter Arrival Time，包間到達(dá)時延)的概率分布，得到一個能夠覆蓋大部分情況的時長，作為jitter buffer的目標(biāo)長度。為了應(yīng)對突發(fā)的抖動，還會檢測IAT的峰值，將過大的峰值記錄到峰值隊列中。為了與時間窗口相統(tǒng)一，峰值隊列中的每個元素均只能停留一個時間窗口的時長，超時則移除。每次進(jìn)行概率統(tǒng)計得到目標(biāo)長度后，若峰值隊列中有元素，就選擇其中的最大值作為新的目標(biāo)長度，據(jù)此調(diào)整jitter buffer的長度，否則就按照概率統(tǒng)計得到的目標(biāo)長度調(diào)整。

這種方法需要按照統(tǒng)計窗口進(jìn)行周期性的概率分布統(tǒng)計，因而只能處理周期性的突發(fā)抖動，并且周期長度不能超過時間窗口的長度。同時，這種方法對jitter buffer長度的估計有滯后性，當(dāng)抖動發(fā)生時，由于統(tǒng)計特性還在被上一個抖動狀態(tài)主導(dǎo)，導(dǎo)致jitterbuffer調(diào)整的速度慢于實際。

發(fā)明內(nèi)容

本公開提供一種音頻處理方法和裝置、音頻處理模型的訓(xùn)練方法和裝置，以至少解決相關(guān)技術(shù)中的如何降低抖動緩沖區(qū)的動態(tài)調(diào)整延遲的問題，也可不解決任何上述問題。

根據(jù)本公開的第一方面，提供了一種音頻處理方法，所述音頻處理方法包括：在接收目標(biāo)音頻的多個音頻包的過程中，獲取網(wǎng)絡(luò)服務(wù)質(zhì)量特征；將所述網(wǎng)絡(luò)服務(wù)質(zhì)量特征輸入音頻處理模型，得到推薦長度；其中，所述音頻處理模型是根據(jù)音頻樣本、接收所述音頻樣本過程中獲取的所述網(wǎng)絡(luò)服務(wù)質(zhì)量特征、所述音頻樣本經(jīng)抖動緩沖處理得到的接收音頻訓(xùn)練得到的；根據(jù)所述推薦長度，調(diào)整抖動緩沖區(qū)；根據(jù)調(diào)整后的抖動緩沖區(qū)，對接收到的音頻包進(jìn)行抖動緩沖處理。

可選地，所述獲取網(wǎng)絡(luò)服務(wù)質(zhì)量特征，包括：在滿足設(shè)定條件的情況下，獲取所述網(wǎng)絡(luò)服務(wù)質(zhì)量特征；其中，所述設(shè)定條件包括以下至少之一：接收到音頻包、接收到音頻包且沒有調(diào)整抖動緩沖區(qū)的連續(xù)次數(shù)達(dá)到設(shè)定次數(shù)、距離上次調(diào)整抖動緩沖區(qū)經(jīng)歷了設(shè)定時長。

可選地，所述根據(jù)所述推薦長度，調(diào)整抖動緩沖區(qū)，包括：根據(jù)上次平滑處理得到的修正長度和當(dāng)前的所述推薦長度，對當(dāng)前的所述推薦長度進(jìn)行平滑處理，得到當(dāng)前的修正長度；將抖動緩沖區(qū)的長度調(diào)整至所述當(dāng)前的修正長度。

可選地，所述音頻處理模型通過以下步驟訓(xùn)練得到：在接收所述音頻樣本的多個音頻包的過程中，基于所述音頻處理模型對抖動緩沖區(qū)進(jìn)行動態(tài)調(diào)整，并根據(jù)動態(tài)調(diào)整后的抖動緩沖區(qū)，對接收到的各個音頻包進(jìn)行抖動緩沖處理，得到所述接收音頻；根據(jù)所述音頻樣本和所述接收音頻，確定損失；基于所述損失調(diào)整所述音頻處理模型的參數(shù)，以對所述音頻處理模型進(jìn)行訓(xùn)練。

可選地，所述根據(jù)所述音頻樣本和所述接收音頻，確定損失，包括：根據(jù)所述音頻樣本和所述接收音頻，確定音質(zhì)損失和延遲損失；根據(jù)所述音質(zhì)損失和所述延遲損失，確定所述損失。

下載完整專利技術(shù)內(nèi)容需要扣除積分，VIP會員可以免費下載。

免登錄下載普通用戶下載升級VIP會員，免費下載

該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息，商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于北京達(dá)佳互聯(lián)信息技術(shù)有限公司，未經(jīng)北京達(dá)佳互聯(lián)信息技術(shù)有限公司許可，擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作，請聯(lián)系【客服】

本文鏈接：http://www.szxzyx.cn/pat/books/202210887195.0/2.html，轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。

上一篇：太陽能電池及光伏組件
下一篇：一種附帶啟動保護的割草機用直流無刷電機

同類專利

專利分類

G 物理

G06 計算；推算；計數(shù)
G06F 電數(shù)字?jǐn)?shù)據(jù)處理
G06F3-00 用于將所要處理的數(shù)據(jù)轉(zhuǎn)變成為計算機能夠處理的形式的輸入裝置；用于將數(shù)據(jù)從處理機傳送到輸出設(shè)備的輸出裝置，例如，接口裝置
G06F3-01 .用于用戶和計算機之間交互的輸入裝置或輸入和輸出組合裝置
G06F3-05 .在規(guī)定的時間間隔上，利用模擬量取樣的數(shù)字輸入
G06F3-06 .來自記錄載體的數(shù)字輸入，或者到記錄載體上去的數(shù)字輸出
G06F3-09 .到打字機上去的數(shù)字輸出
G06F3-12 .到打印裝置上去的數(shù)字輸出

免登錄下載普通用戶下載升級VIP會員，免費下載

專利文獻(xiàn)下載

說明：

1、專利原文基于中國國家知識產(chǎn)權(quán)局專利說明書；

2、支持發(fā)明專利、實用新型專利、外觀設(shè)計專利（升級中）；

3、專利數(shù)據(jù)每周兩次同步更新，支持Adobe PDF格式；

4、內(nèi)容包括專利技術(shù)的結(jié)構(gòu)示意圖、流程工藝圖或技術(shù)構(gòu)造圖；

5、已全新升級為極速版,下載速度顯著提升！歡迎使用！

請您登陸后，進(jìn)行下載，點擊【登陸】【注冊】