[發(fā)明專利]一種基于混合特征及編碼解碼的音頻分離方法在審
| 申請(qǐng)?zhí)枺?/td> | 202110753553.4 | 申請(qǐng)日: | 2021-07-02 |
| 公開(公告)號(hào): | CN113488063A | 公開(公告)日: | 2021-10-08 |
| 發(fā)明(設(shè)計(jì))人: | 吳俊;顏慶國(guó);董勤偉;查顯光;崔林;趙新冬;戴威 | 申請(qǐng)(專利權(quán))人: | 國(guó)網(wǎng)江蘇省電力有限公司電力科學(xué)研究院;國(guó)網(wǎng)江蘇省電力有限公司 |
| 主分類號(hào): | G10L19/008 | 分類號(hào): | G10L19/008;G10L19/005 |
| 代理公司: | 蘇州市中南偉業(yè)知識(shí)產(chǎn)權(quán)代理事務(wù)所(普通合伙) 32257 | 代理人: | 丁博寒 |
| 地址: | 211103 江*** | 國(guó)省代碼: | 江蘇;32 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 混合 特征 編碼 解碼 音頻 分離 方法 | ||
1.一種基于混合特征及編碼解碼的音頻分離方法,其特征在于,包括如下步驟:
步驟一:數(shù)據(jù)收集;通過多終端設(shè)備收集音頻數(shù)據(jù),并將音頻流數(shù)據(jù)按照數(shù)據(jù)序列的先后順序緩存在本地服務(wù)器;
步驟二:前期訓(xùn)練;隨機(jī)抽取部分?jǐn)?shù)據(jù),將有聲部分和無(wú)聲部分端點(diǎn)進(jìn)行標(biāo)注,供參考訓(xùn)練;
步驟三:音頻特征提取;在音頻信號(hào)的頻域、時(shí)域和倒譜域進(jìn)行特征提取,并通過注意力機(jī)制對(duì)多個(gè)特征進(jìn)行加權(quán);
步驟四:音頻空白去除;將步驟三中得到的最終音頻特征表示,通過語(yǔ)音端點(diǎn)檢測(cè)算法和集成分類器去除音頻中低能量區(qū)域,并保留含有明顯聲音的高能量區(qū)域,將切分后的有效音頻片段進(jìn)行拼接;
步驟五:音頻分離;將環(huán)境音與人聲視為兩種音源,使用去除空白后的音頻波形數(shù)據(jù),利用編碼解碼網(wǎng)絡(luò)結(jié)構(gòu)分析混合音頻的語(yǔ)音波形,通過預(yù)測(cè)對(duì)應(yīng)于單個(gè)的時(shí)頻掩碼對(duì)音源進(jìn)行分離。
2.根據(jù)權(quán)利要求1所述的基于混合特征及編碼解碼的音頻分離方法,其特征在于,所述步驟一中,數(shù)據(jù)序列的先后順序?yàn)閿?shù)據(jù)流在傳輸前該設(shè)備所提供的編號(hào)順序。
3.根據(jù)權(quán)利要求1所述的基于混合特征及編碼解碼的音頻分離方法,其特征在于,所述步驟四中,在對(duì)切分后的有效音頻片段進(jìn)行拼接時(shí),通過對(duì)音頻波形兩端添加過渡信號(hào),對(duì)有效音頻片段兩端做平滑處理。
4.根據(jù)權(quán)利要求1所述的基于混合特征及編碼解碼的音頻分離方法,其特征在于,所述環(huán)境音為影響對(duì)說話人語(yǔ)音識(shí)別的噪音和其他非主要說話人的聲音。
5.根據(jù)權(quán)利要求1所述的基于混合特征及編碼解碼的音頻分離方法,其特征在于,所述步驟二中,將已標(biāo)注數(shù)據(jù)分成訓(xùn)練集、驗(yàn)證集和測(cè)試集,訓(xùn)練集用于對(duì)分類器進(jìn)行訓(xùn)練,驗(yàn)證集用于對(duì)模型訓(xùn)練過程進(jìn)行驗(yàn)證,測(cè)試集用于檢測(cè)最終模型的效果。
6.根據(jù)權(quán)利要求5所述的基于混合特征及編碼解碼的音頻分離方法,其特征在于,所述訓(xùn)練集占比為60%~90%。
7.根據(jù)權(quán)利要求5所述的基于混合特征及編碼解碼的音頻分離方法,其特征在于,所述分類器為基于決策樹的音頻分類器、基于KNN的音頻分類器或基于神經(jīng)網(wǎng)絡(luò)的音頻分類器。
8.根據(jù)權(quán)利要求5所述的基于混合特征及編碼解碼的音頻分離方法,其特征在于,訓(xùn)練后的所述分類器對(duì)所述語(yǔ)音端點(diǎn)檢測(cè)算法得到的端點(diǎn)前后n個(gè)幀的類別進(jìn)行判斷,并糾正所述端點(diǎn)。
9.根據(jù)權(quán)利要求1所述的基于混合特征及編碼解碼的音頻分離方法,其特征在于,所述步驟五中,編碼解碼模型結(jié)構(gòu)設(shè)計(jì)包括:
S1:將模型網(wǎng)絡(luò)設(shè)置為L(zhǎng)個(gè)級(jí)別,其中包括L個(gè)下采樣塊和L個(gè)上采樣塊;
S2:將音頻數(shù)據(jù)經(jīng)過L個(gè)下采樣塊進(jìn)行處理,在較粗的時(shí)間尺度上計(jì)算越來越多的高級(jí)特征;
S3:經(jīng)過S2處理后的數(shù)據(jù)經(jīng)過一維卷積處理,再經(jīng)過L個(gè)上采樣塊進(jìn)行處理,計(jì)算出局部高分辨率特征;
S4:將S2與S3中特征進(jìn)行結(jié)合,得到用于預(yù)測(cè)的多尺度特征;
S5:通過多尺度特征進(jìn)行預(yù)測(cè),將音頻數(shù)據(jù)分離成K個(gè)源音頻。
10.根據(jù)權(quán)利要求9所述的基于混合特征及編碼解碼的音頻分離方法,其特征在于,在將下采樣塊與上采樣塊輸出特征進(jìn)行結(jié)合時(shí),將下采樣塊沿處理順序正向排列,將上采樣塊沿處理順序反向排列,將排列后每個(gè)下采樣塊輸出特征與對(duì)應(yīng)排列順序的上采樣塊輸出特征進(jìn)行合并。
11.根據(jù)權(quán)利要求9所述的基于混合特征及編碼解碼的音頻分離方法,其特征在于,L個(gè)級(jí)別中,每個(gè)連續(xù)級(jí)別的運(yùn)行時(shí)間分辨率是前一個(gè)級(jí)別的一半。
12.根據(jù)權(quán)利要求9所述的基于混合特征及編碼解碼的音頻分離方法,其特征在于,每個(gè)下采樣塊和上采樣塊包括一層卷積層與殘差網(wǎng)絡(luò),殘差網(wǎng)絡(luò)位于卷積層后,以減輕過擬合。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于國(guó)網(wǎng)江蘇省電力有限公司電力科學(xué)研究院;國(guó)網(wǎng)江蘇省電力有限公司,未經(jīng)國(guó)網(wǎng)江蘇省電力有限公司電力科學(xué)研究院;國(guó)網(wǎng)江蘇省電力有限公司許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110753553.4/1.html,轉(zhuǎn)載請(qǐng)聲明來源鉆瓜專利網(wǎng)。
- 同類專利
- 專利分類
G10L 語(yǔ)音分析或合成;語(yǔ)音識(shí)別;音頻分析或處理
G10L19-00 用于冗余度下降情形
G10L19-02 .利用頻譜分析,例如變換聲碼器或子頻帶聲碼器
G10L19-04 .利用預(yù)測(cè)技術(shù)
G10L19-06 ..例如短期預(yù)測(cè)系數(shù)的頻譜特征的確定或編碼
G10L19-08 ..激勵(lì)函數(shù)的確定或編碼;長(zhǎng)期預(yù)測(cè)參數(shù)的確定或編碼
G10L19-14 ..不包括在G10L 19/06至G10L 19/12組中的零部件,例如增益編碼、后置濾波設(shè)計(jì)或聲碼器結(jié)構(gòu)
- 體征碼及其編碼方法
- 編碼裝置和編碼方法以及解碼裝置和解碼方法
- 聲音信號(hào)編碼方法、聲音信號(hào)解碼方法、編碼裝置、解碼裝置、聲音信號(hào)處理系統(tǒng)、聲音信號(hào)編碼程序以及聲音信號(hào)解碼程序
- 用于下一代視頻的編碼/未編碼的數(shù)據(jù)的內(nèi)容自適應(yīng)熵編碼
- 編碼光符號(hào)編碼
- 一種可變幀率的編碼方法及裝置
- 一種物聯(lián)網(wǎng)編碼方法及系統(tǒng)
- 點(diǎn)陣編碼及解碼方法
- 一種視頻編碼方法、裝置和存儲(chǔ)介質(zhì)
- 視頻編碼方法、裝置、計(jì)算機(jī)設(shè)備和存儲(chǔ)介質(zhì)





