[發(fā)明專利]一種基于混合特征及編碼解碼的音頻分離方法在審

申請(qǐng)?zhí)枺?/td>	202110753553.4	申請(qǐng)日：	2021-07-02
公開（公告）號(hào)：	CN113488063A	公開（公告）日：	2021-10-08
發(fā)明（設(shè)計(jì)）人：	吳俊;顏慶國(guó);董勤偉;查顯光;崔林;趙新冬;戴威	申請(qǐng)（專利權(quán)）人：	國(guó)網(wǎng)江蘇省電力有限公司電力科學(xué)研究院;國(guó)網(wǎng)江蘇省電力有限公司
主分類號(hào)：	G10L19/008	分類號(hào)：	G10L19/008;G10L19/005
代理公司：	蘇州市中南偉業(yè)知識(shí)產(chǎn)權(quán)代理事務(wù)所(普通合伙) 32257	代理人：	丁博寒
地址：	211103 江***	國(guó)省代碼：	江蘇;32
權(quán)利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關(guān)鍵詞：	一種基于混合特征編碼解碼音頻分離方法
鉆瓜網(wǎng) 技術(shù)展會(huì) 專利詞庫(kù) 專利權(quán)人專利榜在售專利公布日期熱門專利

【權(quán)利要求書】：

1.一種基于混合特征及編碼解碼的音頻分離方法，其特征在于，包括如下步驟：

步驟一：數(shù)據(jù)收集；通過多終端設(shè)備收集音頻數(shù)據(jù)，并將音頻流數(shù)據(jù)按照數(shù)據(jù)序列的先后順序緩存在本地服務(wù)器；

步驟二：前期訓(xùn)練；隨機(jī)抽取部分?jǐn)?shù)據(jù)，將有聲部分和無(wú)聲部分端點(diǎn)進(jìn)行標(biāo)注，供參考訓(xùn)練；

步驟三：音頻特征提取；在音頻信號(hào)的頻域、時(shí)域和倒譜域進(jìn)行特征提取，并通過注意力機(jī)制對(duì)多個(gè)特征進(jìn)行加權(quán)；

步驟四：音頻空白去除；將步驟三中得到的最終音頻特征表示，通過語(yǔ)音端點(diǎn)檢測(cè)算法和集成分類器去除音頻中低能量區(qū)域，并保留含有明顯聲音的高能量區(qū)域，將切分后的有效音頻片段進(jìn)行拼接；

步驟五：音頻分離；將環(huán)境音與人聲視為兩種音源，使用去除空白后的音頻波形數(shù)據(jù)，利用編碼解碼網(wǎng)絡(luò)結(jié)構(gòu)分析混合音頻的語(yǔ)音波形，通過預(yù)測(cè)對(duì)應(yīng)于單個(gè)的時(shí)頻掩碼對(duì)音源進(jìn)行分離。

2.根據(jù)權(quán)利要求1所述的基于混合特征及編碼解碼的音頻分離方法，其特征在于，所述步驟一中，數(shù)據(jù)序列的先后順序?yàn)閿?shù)據(jù)流在傳輸前該設(shè)備所提供的編號(hào)順序。

3.根據(jù)權(quán)利要求1所述的基于混合特征及編碼解碼的音頻分離方法，其特征在于，所述步驟四中，在對(duì)切分后的有效音頻片段進(jìn)行拼接時(shí)，通過對(duì)音頻波形兩端添加過渡信號(hào)，對(duì)有效音頻片段兩端做平滑處理。

4.根據(jù)權(quán)利要求1所述的基于混合特征及編碼解碼的音頻分離方法，其特征在于，所述環(huán)境音為影響對(duì)說話人語(yǔ)音識(shí)別的噪音和其他非主要說話人的聲音。

5.根據(jù)權(quán)利要求1所述的基于混合特征及編碼解碼的音頻分離方法，其特征在于，所述步驟二中，將已標(biāo)注數(shù)據(jù)分成訓(xùn)練集、驗(yàn)證集和測(cè)試集，訓(xùn)練集用于對(duì)分類器進(jìn)行訓(xùn)練，驗(yàn)證集用于對(duì)模型訓(xùn)練過程進(jìn)行驗(yàn)證，測(cè)試集用于檢測(cè)最終模型的效果。

6.根據(jù)權(quán)利要求5所述的基于混合特征及編碼解碼的音頻分離方法，其特征在于，所述訓(xùn)練集占比為60%~90%。

7.根據(jù)權(quán)利要求5所述的基于混合特征及編碼解碼的音頻分離方法，其特征在于，所述分類器為基于決策樹的音頻分類器、基于KNN的音頻分類器或基于神經(jīng)網(wǎng)絡(luò)的音頻分類器。

8.根據(jù)權(quán)利要求5所述的基于混合特征及編碼解碼的音頻分離方法，其特征在于，訓(xùn)練后的所述分類器對(duì)所述語(yǔ)音端點(diǎn)檢測(cè)算法得到的端點(diǎn)前后n個(gè)幀的類別進(jìn)行判斷，并糾正所述端點(diǎn)。

9.根據(jù)權(quán)利要求1所述的基于混合特征及編碼解碼的音頻分離方法，其特征在于，所述步驟五中，編碼解碼模型結(jié)構(gòu)設(shè)計(jì)包括：

S1：將模型網(wǎng)絡(luò)設(shè)置為L(zhǎng)個(gè)級(jí)別，其中包括L個(gè)下采樣塊和L個(gè)上采樣塊；

S2：將音頻數(shù)據(jù)經(jīng)過L個(gè)下采樣塊進(jìn)行處理，在較粗的時(shí)間尺度上計(jì)算越來越多的高級(jí)特征；

S3：經(jīng)過S2處理后的數(shù)據(jù)經(jīng)過一維卷積處理，再經(jīng)過L個(gè)上采樣塊進(jìn)行處理，計(jì)算出局部高分辨率特征；

S4：將S2與S3中特征進(jìn)行結(jié)合，得到用于預(yù)測(cè)的多尺度特征；

S5：通過多尺度特征進(jìn)行預(yù)測(cè)，將音頻數(shù)據(jù)分離成K個(gè)源音頻。

10.根據(jù)權(quán)利要求9所述的基于混合特征及編碼解碼的音頻分離方法，其特征在于，在將下采樣塊與上采樣塊輸出特征進(jìn)行結(jié)合時(shí)，將下采樣塊沿處理順序正向排列，將上采樣塊沿處理順序反向排列，將排列后每個(gè)下采樣塊輸出特征與對(duì)應(yīng)排列順序的上采樣塊輸出特征進(jìn)行合并。

11.根據(jù)權(quán)利要求9所述的基于混合特征及編碼解碼的音頻分離方法，其特征在于，L個(gè)級(jí)別中，每個(gè)連續(xù)級(jí)別的運(yùn)行時(shí)間分辨率是前一個(gè)級(jí)別的一半。

12.根據(jù)權(quán)利要求9所述的基于混合特征及編碼解碼的音頻分離方法，其特征在于，每個(gè)下采樣塊和上采樣塊包括一層卷積層與殘差網(wǎng)絡(luò)，殘差網(wǎng)絡(luò)位于卷積層后，以減輕過擬合。

下載完整專利技術(shù)內(nèi)容需要扣除積分，VIP會(huì)員可以免費(fèi)下載。

免登錄下載普通用戶下載升級(jí)VIP會(huì)員，免費(fèi)下載

該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息，商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于國(guó)網(wǎng)江蘇省電力有限公司電力科學(xué)研究院;國(guó)網(wǎng)江蘇省電力有限公司，未經(jīng)國(guó)網(wǎng)江蘇省電力有限公司電力科學(xué)研究院;國(guó)網(wǎng)江蘇省電力有限公司許可，擅自商用是侵權(quán)行為。如果您想購(gòu)買此專利、獲得商業(yè)授權(quán)和技術(shù)合作，請(qǐng)聯(lián)系【客服】

本文鏈接：http://www.szxzyx.cn/pat/books/202110753553.4/1.html，轉(zhuǎn)載請(qǐng)聲明來源鉆瓜專利網(wǎng)。

同類專利

專利分類

G 物理

G10 樂器；聲學(xué)
G10L 語(yǔ)音分析或合成；語(yǔ)音識(shí)別；音頻分析或處理
G10L19-00 用于冗余度下降情形
G10L19-02 .利用頻譜分析，例如變換聲碼器或子頻帶聲碼器
G10L19-04 .利用預(yù)測(cè)技術(shù)
G10L19-06 ..例如短期預(yù)測(cè)系數(shù)的頻譜特征的確定或編碼
G10L19-08 ..激勵(lì)函數(shù)的確定或編碼；長(zhǎng)期預(yù)測(cè)參數(shù)的確定或編碼
G10L19-14 ..不包括在G10L 19/06至G10L 19/12組中的零部件，例如增益編碼、后置濾波設(shè)計(jì)或聲碼器結(jié)構(gòu)

免登錄下載普通用戶下載升級(jí)VIP會(huì)員，免費(fèi)下載

專利文獻(xiàn)下載

說明：

1、專利原文基于中國(guó)國(guó)家知識(shí)產(chǎn)權(quán)局專利說明書；

2、支持發(fā)明專利、實(shí)用新型專利、外觀設(shè)計(jì)專利（升級(jí)中）；

3、專利數(shù)據(jù)每周兩次同步更新，支持Adobe PDF格式；

4、內(nèi)容包括專利技術(shù)的結(jié)構(gòu)示意圖、流程工藝圖或技術(shù)構(gòu)造圖；

5、已全新升級(jí)為極速版,下載速度顯著提升！歡迎使用！

請(qǐng)您登陸后，進(jìn)行下載，點(diǎn)擊【登陸】【注冊(cè)】