[發(fā)明專利]音頻處理方法、裝置、存儲介質(zhì)及計算機程序有效
| 申請?zhí)枺?/td> | 202111194926.5 | 申請日: | 2021-10-14 |
| 公開(公告)號: | CN113643714B | 公開(公告)日: | 2022-02-18 |
| 發(fā)明(設(shè)計)人: | 王子騰;納躍躍;劉章;田彪;付強 | 申請(專利權(quán))人: | 阿里巴巴達摩院(杭州)科技有限公司 |
| 主分類號: | G10L21/0208 | 分類號: | G10L21/0208 |
| 代理公司: | 北京博浩百睿知識產(chǎn)權(quán)代理有限責(zé)任公司 11134 | 代理人: | 謝湘寧 |
| 地址: | 310023 浙江省杭州市余杭*** | 國省代碼: | 浙江;33 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 音頻 處理 方法 裝置 存儲 介質(zhì) 計算機 程序 | ||
本發(fā)明公開了一種音頻處理方法、裝置、存儲介質(zhì)及計算機程序。其中,該方法包括:獲取待測試音頻的特征向量;將待測試音頻的特征向量輸入目標(biāo)模型進行處理,得到目標(biāo)時頻掩蔽信息,其中,目標(biāo)模型用于確定混響音頻對應(yīng)的時頻掩蔽信息,時頻掩蔽信息用于將混響音頻處理為目標(biāo)類型音頻,目標(biāo)類型音頻中包含混響音頻對應(yīng)的聲源的直達聲和早期反射聲;根據(jù)目標(biāo)時頻掩蔽信息處理待測試音頻,得到目標(biāo)音頻。本發(fā)明解決了由于空間內(nèi)的混響現(xiàn)象的存在,導(dǎo)致拾音設(shè)備采集到的音頻的清晰度低的技術(shù)問題。
技術(shù)領(lǐng)域
本發(fā)明涉及音頻處理技術(shù)領(lǐng)域,具體而言,涉及一種音頻處理方法、裝置、存儲介質(zhì)及計算機程序。
背景技術(shù)
混響是空間內(nèi)的聲源發(fā)音停止后聲音繼續(xù)存在的聲學(xué)現(xiàn)象,混響的存在使得音頻采集設(shè)備采集到的語言清晰度低,影響采集到的語音的可懂度。
其中,在較大的空間內(nèi),為了采集到空間各個區(qū)域發(fā)出的聲音,需要采用兩個或者多個拾音設(shè)備共同配合拾取空間內(nèi)產(chǎn)生的音頻,但是,由于空間較大,拾音設(shè)備采集的聲音混響感非常明顯,從而降低了采集到的音頻內(nèi)容的可懂度。
針對上述的問題,目前尚未提出有效的解決方案。
發(fā)明內(nèi)容
本發(fā)明實施例提供了一種音頻處理方法、裝置、存儲介質(zhì)及計算機程序,以至少解決由于空間內(nèi)的混響現(xiàn)象的存在,導(dǎo)致拾音設(shè)備采集到的音頻的清晰度低的技術(shù)問題。
根據(jù)本發(fā)明實施例的一個方面,提供了一種音頻處理方法,包括:獲取待測試音頻的特征向量;將待測試音頻的特征向量輸入目標(biāo)模型進行處理,得到目標(biāo)時頻掩蔽信息,其中,目標(biāo)模型用于確定混響音頻對應(yīng)的時頻掩蔽信息,時頻掩蔽信息用于將混響音頻處理為目標(biāo)類型音頻,目標(biāo)類型音頻中包含混響音頻對應(yīng)的聲源的直達聲和早期反射聲;根據(jù)目標(biāo)時頻掩蔽信息處理待測試音頻,得到目標(biāo)音頻。
根據(jù)本發(fā)明實施例的另一方面,還提供了另一種音頻處理方法,包括:云服務(wù)器接收待測試音頻;云服務(wù)器獲取待測試音頻的特征向量,采用目標(biāo)模型對待測試音頻的特征向量進行處理,得到目標(biāo)時頻掩蔽信息,并根據(jù)目標(biāo)時頻掩蔽信息處理待測試音頻,得到目標(biāo)音頻,其中,目標(biāo)模型用于確定混響音頻對應(yīng)的時頻掩蔽信息,時頻掩蔽信息用于將混響音頻處理為目標(biāo)類型音頻,目標(biāo)類型音頻中包含混響音頻對應(yīng)的聲源的直達聲和早期反射聲;云服務(wù)器返回目標(biāo)音頻至客戶端。
根據(jù)本發(fā)明實施例的另一方面,還提供了另一種音頻處理方法,包括:采集待測試音頻,并在音頻播放器播放待測試音頻;在音頻播放器播放待測試音頻對應(yīng)的目標(biāo)音頻,其中,目標(biāo)音頻是通過目標(biāo)時頻掩蔽信息對待測試音頻進行處理后得到的音頻,目標(biāo)時頻掩蔽信息是通過目標(biāo)模型對待測試音頻的特征向量進行處理得到的信息,目標(biāo)模型用于確定混響音頻對應(yīng)的時頻掩蔽信息。
根據(jù)本發(fā)明實施例的另一方面,還提供了另一種音頻處理方法,包括:通過至少兩個采集器采集教學(xué)空間內(nèi)產(chǎn)生的音頻,得到第一音頻;獲取第一音頻的特征向量,并將第一音頻的特征向量輸入目標(biāo)模型進行處理,得到目標(biāo)時頻掩蔽信息,其中,目標(biāo)模型用于確定混響音頻對應(yīng)的時頻掩蔽信息,時頻掩蔽信息用于將混響音頻處理為目標(biāo)類型音頻,目標(biāo)類型音頻中包含混響音頻對應(yīng)的聲源的直達聲和早期反射聲;根據(jù)目標(biāo)時頻掩蔽信息處理第一音頻,得到第二音頻;將第二音頻發(fā)送至教學(xué)空間所對應(yīng)的遠端課堂。
根據(jù)本發(fā)明實施例的另一方面,還提供了一種音頻處理裝置,包括:第一獲取單元,用于獲取待測試音頻的特征向量;第一處理單元,用于將待測試音頻的特征向量輸入目標(biāo)模型進行處理,得到目標(biāo)時頻掩蔽信息,其中,目標(biāo)模型用于確定混響音頻對應(yīng)的時頻掩蔽信息,時頻掩蔽信息用于將混響音頻處理為目標(biāo)類型音頻,目標(biāo)類型音頻中包含混響音頻對應(yīng)的聲源的直達聲和早期反射聲;第二處理單元,用于根據(jù)目標(biāo)時頻掩蔽信息處理待測試音頻,得到目標(biāo)音頻。
根據(jù)本發(fā)明實施例的另一方面,還提供了一種存儲介質(zhì),存儲介質(zhì)包括存儲的程序,其中,在程序運行時控制存儲介質(zhì)所在設(shè)備執(zhí)行上述任意一種音頻處理方法。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于阿里巴巴達摩院(杭州)科技有限公司,未經(jīng)阿里巴巴達摩院(杭州)科技有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202111194926.5/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。





