[發(fā)明專利]混音方法、裝置、設(shè)備及存儲介質(zhì)有效
| 申請?zhí)枺?/td> | 201710665368.3 | 申請日: | 2017-08-07 |
| 公開(公告)號: | CN109389989B | 公開(公告)日: | 2021-11-30 |
| 發(fā)明(設(shè)計)人: | 吳威麒;張凱磊 | 申請(專利權(quán))人: | 蘇州謙問萬答吧教育科技有限公司 |
| 主分類號: | G10L21/007 | 分類號: | G10L21/007;G10L21/02;G10L21/0272;G10L21/0316;G10L25/84;G10L15/14;G10L15/16;G10L15/18;H04S3/00 |
| 代理公司: | 北京品源專利代理有限公司 11332 | 代理人: | 孟金喆 |
| 地址: | 215611 江蘇省蘇*** | 國省代碼: | 江蘇;32 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 方法 裝置 設(shè)備 存儲 介質(zhì) | ||
本發(fā)明公開了一種混音方法、裝置、設(shè)備及存儲介質(zhì)。其中,一種混音方法,包括:接收至少兩路聲道的音頻流數(shù)據(jù);通過預先訓練的人聲檢測模型檢測所有聲道的音頻流數(shù)據(jù)的類型,以識別出人聲聲道音頻流數(shù)據(jù)和噪聲聲道音頻流數(shù)據(jù);將人聲聲道音頻流數(shù)據(jù)進行混音生成人聲混音數(shù)據(jù);將噪聲聲道音頻流數(shù)據(jù)進行混音生成噪聲混音數(shù)據(jù);將人聲混音數(shù)據(jù)與噪聲混音數(shù)據(jù)進行混音生成結(jié)果混音數(shù)據(jù)。本發(fā)明實施例通過預先訓練的人聲檢測模型區(qū)分人聲聲道音頻流數(shù)據(jù)和噪聲聲道音頻流數(shù)據(jù),然后對二者分別進行混音,再將混音結(jié)果疊加生成結(jié)果混音數(shù)據(jù),突出了結(jié)果混音數(shù)據(jù)中的人聲音頻流數(shù)據(jù)的幅值,使混音后的人聲更加清晰,實用性和用戶體驗較好。
技術(shù)領(lǐng)域
本發(fā)明實施例涉及混音技術(shù)領(lǐng)域,尤其涉及一種混音方法、裝置、設(shè)備及存儲介質(zhì)。
背景技術(shù)
在VOIP電話會議中,有多個人員參與交談,為了讓某個接收方能夠聽到其他所有人的聲音,需要對其他所有人的音頻流進行混音。混音處理功能設(shè)置在服務(wù)器端,這樣可以節(jié)省帶寬,減小客戶端計算壓力,不過會增加服務(wù)器的計算壓力,適合多數(shù)人同時參與會話;混音處理功能也可以設(shè)置在客戶端處理,對服務(wù)器沒有壓力,適合少數(shù)人同時會話。
無論混音放在哪一端,均需要使聆聽者清楚地聽到說話者的聲音,現(xiàn)有技術(shù)中的經(jīng)典混音算法是線性疊加算法,具體如下:
假設(shè)有M個人通話,音頻數(shù)據(jù)長度為N,則第i個人的音頻流表示為xi(n),其中,i=1~M,n=1~N。
假設(shè)混音結(jié)果記作mix(n),線性混音計算方法:
該算法對所有聲道的音頻流數(shù)據(jù)直接采用線性處理,簡單有效,雖然沒有出現(xiàn)明顯失真,但是,當聲道增多時,即M特別大時,人聲的音量會被顯著削弱,用戶體驗較差。
發(fā)明內(nèi)容
本發(fā)明提供一種混音方法、裝置、設(shè)備及存儲介質(zhì),能有效解決多路音頻流數(shù)據(jù)混音后音量變小的問題,突出說話人的聲音,降低噪聲音量。
第一方面,本發(fā)明實施例提供了一種混音方法,包括:
接收至少兩路聲道的音頻流數(shù)據(jù);
通過預先訓練的人聲檢測模型檢測所有聲道的音頻流數(shù)據(jù)的類型,以識別出人聲聲道音頻流數(shù)據(jù)和噪聲聲道音頻流數(shù)據(jù);
將所述人聲聲道音頻流數(shù)據(jù)進行混音,生成人聲混音數(shù)據(jù);
將所述噪聲聲道音頻流數(shù)據(jù)進行混音,生成噪聲混音數(shù)據(jù);
將所述人聲混音數(shù)據(jù)與所述噪聲混音數(shù)據(jù)進行混音,生成結(jié)果混音數(shù)據(jù)。
進一步,所述通過預先訓練的人聲檢測模型檢測所有聲道的音頻流數(shù)據(jù)的類型,包括:
通過基于高斯概率密度函數(shù)的GMM模型、基于向量機的SVM模型、基于神經(jīng)網(wǎng)絡(luò)的DNN模型或基于卷積神經(jīng)網(wǎng)絡(luò)的CNN模型中的一種算法訓練所述人聲檢測模型。
進一步,所述將所述人聲聲道音頻流數(shù)據(jù)進行混音,生成人聲混音數(shù)據(jù),包括:
通過線性混音對所述人聲聲道音頻流數(shù)據(jù)進行混音,生成人聲混音數(shù)據(jù)。
進一步,所述將所述噪聲聲道音頻流數(shù)據(jù)進行混音,生成噪聲混音數(shù)據(jù),包括:
通過線性混音對所述噪聲聲道音頻流數(shù)據(jù)進行混音,生成噪聲混音數(shù)據(jù)。
進一步,所述將所述人聲聲道音頻流數(shù)據(jù)進行混音,生成人聲混音數(shù)據(jù)之前,還包括:
判斷所述人聲聲道音頻流數(shù)據(jù)是否小于預設(shè)調(diào)整幅值;
若是,則將所述人聲聲道音頻流數(shù)據(jù)歸一化至第一預設(shè)幅值范圍,生成歸一化后的人聲聲道音頻流數(shù)據(jù)。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于蘇州謙問萬答吧教育科技有限公司,未經(jīng)蘇州謙問萬答吧教育科技有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710665368.3/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 傳感設(shè)備、檢索設(shè)備和中繼設(shè)備
- 簽名設(shè)備、檢驗設(shè)備、驗證設(shè)備、加密設(shè)備及解密設(shè)備
- 色彩調(diào)整設(shè)備、顯示設(shè)備、打印設(shè)備、圖像處理設(shè)備
- 驅(qū)動設(shè)備、定影設(shè)備和成像設(shè)備
- 發(fā)送設(shè)備、中繼設(shè)備和接收設(shè)備
- 定點設(shè)備、接口設(shè)備和顯示設(shè)備
- 傳輸設(shè)備、DP源設(shè)備、接收設(shè)備以及DP接受設(shè)備
- 設(shè)備綁定方法、設(shè)備、終端設(shè)備以及網(wǎng)絡(luò)側(cè)設(shè)備
- 設(shè)備、主設(shè)備及從設(shè)備
- 設(shè)備向設(shè)備轉(zhuǎn)發(fā)





