[發明專利]一種基于混合特征及編碼解碼的音頻分離方法在審
| 申請號: | 202110753553.4 | 申請日: | 2021-07-02 |
| 公開(公告)號: | CN113488063A | 公開(公告)日: | 2021-10-08 |
| 發明(設計)人: | 吳俊;顏慶國;董勤偉;查顯光;崔林;趙新冬;戴威 | 申請(專利權)人: | 國網江蘇省電力有限公司電力科學研究院;國網江蘇省電力有限公司 |
| 主分類號: | G10L19/008 | 分類號: | G10L19/008;G10L19/005 |
| 代理公司: | 蘇州市中南偉業知識產權代理事務所(普通合伙) 32257 | 代理人: | 丁博寒 |
| 地址: | 211103 江*** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 混合 特征 編碼 解碼 音頻 分離 方法 | ||
本發明涉及音頻數據處理技術領域,尤其涉及一種基于混合特征及編碼解碼的音頻分離方法,包括如下步驟:數據收集;通過多終端設備收集音頻數據;前期訓練;隨機抽取部分數據進行標注,將有聲部分和無聲部分端點進行標注;音頻特征提取;在音頻信號的頻域、時域和倒譜域進行特征提取,并通過注意力機制對多個特征進行加權;音頻空白去除;將得到的最終音頻特征表示,通過語音端點檢測算法和集成分類器去除音頻中低能量區域,并保留含有明顯聲音的高能量區域,將切分后的片段進行拼接;音頻分離;使用去除空白后的音頻波形數據,利用編碼解碼網絡結構分析混合音頻的語音波形,通過預測對應于單個的時頻掩碼對音源進行分離,輸出僅包括人聲的音頻。
技術領域
本發明涉及音頻數據處理技術領域,尤其涉及一種基于混合特征及編碼解碼的音頻分離方法。
背景技術
多終端設備的普及和高速網絡傳輸技術的進步,獲取海量的數據已不是現有企業難以解決的問題。獲取的大量數據中往往含有很多低質量的數據,這些數據嚴重影響企業下游業務的運行。語音數據是互聯網數據中的一大類。在網絡教學、音視頻會議等場景下,語音數據是課堂行為監控、記錄留存、人機交互等行為的重要組成部分。而后端業務服務器處理的語音數據流存在大量的語音空白和無法識別的環境噪音,這增大了業務服務器處理的負擔。
一種緩解這個問題的方式是擴展分布式服務器的數量,使用算力應對無效數據的處理,但單一擴展算力并不能根本上解決問題。數據中臺的概念提出后,越來越多的企業愿意使用一種集中的方式,使用算法對數據進行預處理,再通過數據提取,將有效數據分發到各業務服務器用于下游任務的使用。
傳統的語音空白去除算法有語音端點檢測算法(Voice Activity Detection,VAD)。這個算法的主要任務是從帶有噪聲的語音中準確的定位出語音的開始和結束點,并把靜音和實際語音分離開來,是語音信號處理過程的關鍵技術。傳統的語音分離技術有基于非負矩陣分解(Non-negative Matrix Factorization,NMF)的方法以及基于F0估計的方法是用于語音分離任務的傳統監督方法,分離效果較差。
鑒于上述問題的存在,本設計人基于從事此類產品工程應用多年豐富的實務經驗及專業知識,并配合學理的運用,積極加以研究創新,以期創設一種基于混合特征及編碼解碼的音頻分離方法,使其更具有實用性。
公開于該背景技術部分的信息僅僅旨在加深對本發明的總體背景技術的理解,而不應當被視為承認或以任何形式暗示該信息構成已為本領域技術人員所公知的現有技術。
發明內容
本發明提供了一種基于混合特征及編碼解碼的音頻分離方法,從而有效解決背景技術中的問題。
為了達到上述目的,本發明所采用的技術方案是:一種基于混合特征及編碼解碼的音頻分離方法,包括如下步驟:
步驟一:數據收集;通過多終端設備收集音頻數據,并將音頻流數據按照數據序列的先后順序緩存在本地服務器;
步驟二:前期訓練;隨機抽取部分數據進行標注,將有聲部分和無聲部分端點進行標注,供參考訓練;
步驟三:音頻特征提取;在音頻信號的頻域、時域和倒譜域進行特征提取,并通過注意力機制對多個特征進行加權;
步驟四:音頻空白去除;將步驟三中得到的最終音頻特征表示,通過語音端點檢測算法和集成分類器去除音頻中低能量區域,并保留含有明顯聲音的高能量區域,將切分后的有效音頻片段進行拼接;
步驟五:音頻分離;將環境音與人聲視為兩種音源,使用去除空白后的音頻波形數據,利用編碼解碼網絡結構分析混合音頻的語音波形,通過預測對應于單個的時頻掩碼對音源進行分離。
進一步地,所述步驟一中,數據序列的先后順序為數據流在傳輸前該設備所提供的編號順序。
進一步地,所述步驟四中,在對切分后的有效音頻片段進行拼接時,通過對音頻波形兩端添加過渡信號,對有效音頻片段兩端做平滑處理。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于國網江蘇省電力有限公司電力科學研究院;國網江蘇省電力有限公司,未經國網江蘇省電力有限公司電力科學研究院;國網江蘇省電力有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110753553.4/2.html,轉載請聲明來源鉆瓜專利網。





