[發(fā)明專利]音頻處理方法和裝置、音頻處理模型的訓(xùn)練方法和裝置在審
| 申請?zhí)枺?/td> | 202210887195.0 | 申請日: | 2022-07-26 |
| 公開(公告)號: | CN115167807A | 公開(公告)日: | 2022-10-11 |
| 發(fā)明(設(shè)計)人: | 鄭羲光;張晨;邢文浩 | 申請(專利權(quán))人: | 北京達(dá)佳互聯(lián)信息技術(shù)有限公司 |
| 主分類號: | G06F3/16 | 分類號: | G06F3/16 |
| 代理公司: | 北京銘碩知識產(chǎn)權(quán)代理有限公司 11286 | 代理人: | 蘇銀虹;王兆賡 |
| 地址: | 100085 北京市海淀*** | 國省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 音頻 處理 方法 裝置 模型 訓(xùn)練 | ||
本公開關(guān)于一種音頻處理方法和裝置、音頻處理模型的訓(xùn)練方法和裝置,音頻處理方法包括:在接收目標(biāo)音頻的多個音頻包的過程中,獲取網(wǎng)絡(luò)服務(wù)質(zhì)量特征;將網(wǎng)絡(luò)服務(wù)質(zhì)量特征輸入音頻處理模型,得到推薦長度;其中,音頻處理模型是根據(jù)音頻樣本、接收音頻樣本過程中獲取的網(wǎng)絡(luò)服務(wù)質(zhì)量特征、音頻樣本經(jīng)抖動緩沖處理得到的接收音頻訓(xùn)練得到的;根據(jù)推薦長度,調(diào)整抖動緩沖區(qū);根據(jù)調(diào)整后的抖動緩沖區(qū),對接收到的音頻包進(jìn)行抖動緩沖處理。
技術(shù)領(lǐng)域
本公開涉及音頻傳輸技術(shù)領(lǐng)域,尤其涉及一種音頻處理方法和裝置、音頻處理模型的訓(xùn)練方法和裝置。
背景技術(shù)
在音頻傳輸領(lǐng)域,例如基于VOIP(Voice Over Internet Protocol)的實時語音通信應(yīng)用中,由于網(wǎng)絡(luò)的不穩(wěn)定(抖動和丟包),通常會在接收端運用一個jitter buffer(抖動緩沖區(qū))起到緩沖的目的,以保持接收端音頻播放的連續(xù)性。
相關(guān)技術(shù)中,可以使用信號處理的方式動態(tài)調(diào)整jitter buffer的長度。該方式取最近的一個時間窗口,統(tǒng)計該窗口內(nèi)IAT(Inter Arrival Time,包間到達(dá)時延)的概率分布,得到一個能夠覆蓋大部分情況的時長,作為jitter buffer的目標(biāo)長度。為了應(yīng)對突發(fā)的抖動,還會檢測IAT的峰值,將過大的峰值記錄到峰值隊列中。為了與時間窗口相統(tǒng)一,峰值隊列中的每個元素均只能停留一個時間窗口的時長,超時則移除。每次進(jìn)行概率統(tǒng)計得到目標(biāo)長度后,若峰值隊列中有元素,就選擇其中的最大值作為新的目標(biāo)長度,據(jù)此調(diào)整jitter buffer的長度,否則就按照概率統(tǒng)計得到的目標(biāo)長度調(diào)整。
這種方法需要按照統(tǒng)計窗口進(jìn)行周期性的概率分布統(tǒng)計,因而只能處理周期性的突發(fā)抖動,并且周期長度不能超過時間窗口的長度。同時,這種方法對jitter buffer長度的估計有滯后性,當(dāng)抖動發(fā)生時,由于統(tǒng)計特性還在被上一個抖動狀態(tài)主導(dǎo),導(dǎo)致jitterbuffer調(diào)整的速度慢于實際。
發(fā)明內(nèi)容
本公開提供一種音頻處理方法和裝置、音頻處理模型的訓(xùn)練方法和裝置,以至少解決相關(guān)技術(shù)中的如何降低抖動緩沖區(qū)的動態(tài)調(diào)整延遲的問題,也可不解決任何上述問題。
根據(jù)本公開的第一方面,提供了一種音頻處理方法,所述音頻處理方法包括:在接收目標(biāo)音頻的多個音頻包的過程中,獲取網(wǎng)絡(luò)服務(wù)質(zhì)量特征;將所述網(wǎng)絡(luò)服務(wù)質(zhì)量特征輸入音頻處理模型,得到推薦長度;其中,所述音頻處理模型是根據(jù)音頻樣本、接收所述音頻樣本過程中獲取的所述網(wǎng)絡(luò)服務(wù)質(zhì)量特征、所述音頻樣本經(jīng)抖動緩沖處理得到的接收音頻訓(xùn)練得到的;根據(jù)所述推薦長度,調(diào)整抖動緩沖區(qū);根據(jù)調(diào)整后的抖動緩沖區(qū),對接收到的音頻包進(jìn)行抖動緩沖處理。
可選地,所述獲取網(wǎng)絡(luò)服務(wù)質(zhì)量特征,包括:在滿足設(shè)定條件的情況下,獲取所述網(wǎng)絡(luò)服務(wù)質(zhì)量特征;其中,所述設(shè)定條件包括以下至少之一:接收到音頻包、接收到音頻包且沒有調(diào)整抖動緩沖區(qū)的連續(xù)次數(shù)達(dá)到設(shè)定次數(shù)、距離上次調(diào)整抖動緩沖區(qū)經(jīng)歷了設(shè)定時長。
可選地,所述根據(jù)所述推薦長度,調(diào)整抖動緩沖區(qū),包括:根據(jù)上次平滑處理得到的修正長度和當(dāng)前的所述推薦長度,對當(dāng)前的所述推薦長度進(jìn)行平滑處理,得到當(dāng)前的修正長度;將抖動緩沖區(qū)的長度調(diào)整至所述當(dāng)前的修正長度。
可選地,所述音頻處理模型通過以下步驟訓(xùn)練得到:在接收所述音頻樣本的多個音頻包的過程中,基于所述音頻處理模型對抖動緩沖區(qū)進(jìn)行動態(tài)調(diào)整,并根據(jù)動態(tài)調(diào)整后的抖動緩沖區(qū),對接收到的各個音頻包進(jìn)行抖動緩沖處理,得到所述接收音頻;根據(jù)所述音頻樣本和所述接收音頻,確定損失;基于所述損失調(diào)整所述音頻處理模型的參數(shù),以對所述音頻處理模型進(jìn)行訓(xùn)練。
可選地,所述根據(jù)所述音頻樣本和所述接收音頻,確定損失,包括:根據(jù)所述音頻樣本和所述接收音頻,確定音質(zhì)損失和延遲損失;根據(jù)所述音質(zhì)損失和所述延遲損失,確定所述損失。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于北京達(dá)佳互聯(lián)信息技術(shù)有限公司,未經(jīng)北京達(dá)佳互聯(lián)信息技術(shù)有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202210887195.0/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 上一篇:太陽能電池及光伏組件
- 下一篇:一種附帶啟動保護的割草機用直流無刷電機
- 同類專利
- 專利分類
G06F 電數(shù)字?jǐn)?shù)據(jù)處理
G06F3-00 用于將所要處理的數(shù)據(jù)轉(zhuǎn)變成為計算機能夠處理的形式的輸入裝置;用于將數(shù)據(jù)從處理機傳送到輸出設(shè)備的輸出裝置,例如,接口裝置
G06F3-01 .用于用戶和計算機之間交互的輸入裝置或輸入和輸出組合裝置
G06F3-05 .在規(guī)定的時間間隔上,利用模擬量取樣的數(shù)字輸入
G06F3-06 .來自記錄載體的數(shù)字輸入,或者到記錄載體上去的數(shù)字輸出
G06F3-09 .到打字機上去的數(shù)字輸出
G06F3-12 .到打印裝置上去的數(shù)字輸出





