[發明專利]混音方法、裝置、電子設備和存儲介質在審
| 申請號: | 202210700556.6 | 申請日: | 2022-06-20 |
| 公開(公告)號: | CN115188394A | 公開(公告)日: | 2022-10-14 |
| 發明(設計)人: | 蘇文暢;何旭峰;王瑋;駱鵬鵬;李全 | 申請(專利權)人: | 安徽聽見科技有限公司 |
| 主分類號: | G10L25/51 | 分類號: | G10L25/51;G10L25/27;H04N7/15 |
| 代理公司: | 北京路浩知識產權代理有限公司 11002 | 代理人: | 程琛 |
| 地址: | 230000 安徽省合肥市高新區習*** | 國省代碼: | 安徽;34 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 方法 裝置 電子設備 存儲 介質 | ||
本發明提供一種混音方法、裝置、電子設備和存儲介質,其中方法包括:獲取待混音的兩路音頻;基于基準音頻的音頻模型,確定所述兩路音頻中各音頻段分別與所述基準音頻之間的擬合度,所述音頻模型基于基準音頻在頻域上的信噪比確定,所述基準音頻包括噪聲音頻和/或人聲音頻;基于所述兩路音頻中各音頻段分別與所述基準音頻之間的擬合度,對所述兩路音頻進行混音。本發明實施例提供的混音方法、裝置、電子設備和存儲介質,基于擬合度對兩路音頻進行混音,能夠實現更加準確的混音權重設置,避免了現有技術中根據經驗設置混音權重帶來的混音效果差的問題,使得混音后語音轉寫的效果更好。
技術領域
本發明涉及音視頻技術領域,尤其涉及一種混音方法、裝置、電子設備和存儲介質。
背景技術
當前在視頻會議的場景中,用戶需要同步進行系統音頻以及麥克風音頻的采集,并將此兩路音頻混音之后,可以同步進行實時語音轉寫或者在會議結束后進行離線文件轉寫。
目前常用的混音方法是將各路音頻數據直接進行疊加并削峰,或根據經驗值,人為設置各路音頻在混音中的音量比重。
由于多方視頻會議場景中,各路音頻的音量采集等級可能不一致,以及存在環境噪音,根據經驗值設置各路音頻在混音中的音量比重,導致混音后的音頻送去轉寫效果較差。
發明內容
本發明提供一種混音方法、裝置、電子設備和存儲介質,用以解決現有技術中混音后的音頻送去轉寫效果較差的缺陷。
本發明提供一種混音方法,包括:
獲取待混音的兩路音頻;
基于基準音頻的音頻模型,確定所述兩路音頻中各音頻段分別與所述基準音頻之間的擬合度,所述音頻模型基于基準音頻在頻域上的信噪比確定,所述基準音頻包括噪聲音頻和/或人聲音頻;
基于所述兩路音頻中各音頻段分別與所述基準音頻之間的擬合度,對所述兩路音頻進行混音。
根據本發明提供的一種混音方法,所述基于所述兩路音頻中各音頻段分別與所述基準音頻之間的擬合度,對所述兩路音頻進行混音,包括:
基于所述兩路音頻中對應同一時段的音頻段分別與所述基準音頻之間的擬合度,確定所述兩路音頻中各音頻段的混音權重;
基于所述兩路音頻中各音頻段的混音權重,對所述兩路音頻進行混音。
根據本發明提供的一種混音方法,所述基于所述兩路音頻中對應同一時段的音頻段分別與所述基準音頻之間的擬合度,確定所述兩路音頻中各音頻段的混音權重,包括:
對所述兩路音頻中對應同一時段的音頻段分別與一類基準音頻之間的擬合度之和進行歸一化,基于歸一化后的擬合度確定對應同一時段的音頻段的混音權重。
根據本發明提供的一種混音方法,所述基于所述兩路音頻中對應同一時段的音頻段分別與所述基準音頻之間的擬合度,確定所述兩路音頻中各音頻段的混音權重,之前還包括:
在所述兩路音頻中對應同一時段的音頻段中,存在一音頻段與一類基準音頻之間的擬合度,以及另一音頻段與另一類基準音頻之間的擬合度的情況下,將所述另一音頻段與另一類基準音頻之間的擬合度轉換為所述另一音頻段與所述一類基準音頻之間的擬合度。
根據本發明提供的一種混音方法,所述基于所述兩路音頻中各音頻段的混音權重,對所述兩路音頻進行混音,包括:
基于所述兩路音頻中各音頻段的序號和混音權重,對所述兩路音頻分別進行編碼,得到兩路編碼音頻;
對所述兩路編碼音頻進行混音。
根據本發明提供的一種混音方法,所述基于所述兩路音頻中各音頻段的序號和混音權重,對所述兩路音頻分別進行編碼,得到兩路編碼音頻,包括:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于安徽聽見科技有限公司,未經安徽聽見科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202210700556.6/2.html,轉載請聲明來源鉆瓜專利網。





