[發明專利]一種基于擠壓和激勵殘差網絡的歌聲檢測方法有效
| 申請號: | 202010164594.5 | 申請日: | 2020-03-11 |
| 公開(公告)號: | CN111400540B | 公開(公告)日: | 2023-10-17 |
| 發明(設計)人: | 桂文明 | 申請(專利權)人: | 金陵科技學院 |
| 主分類號: | G06F16/68 | 分類號: | G06F16/68;G06F16/632;G06F18/241;G06N3/045;G06N3/08 |
| 代理公司: | 南京知識律師事務所 32207 | 代理人: | 陳卓 |
| 地址: | 211169 江*** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 擠壓 激勵 網絡 歌聲 檢測 方法 | ||
本發明提出了一種基于擠壓和激勵殘差網絡(Squeeze?And?Excitation Residual Neural Network,簡寫SE?ResNet)的歌聲檢測方法。該方法包括以下步驟:構建擠壓和激勵殘差網絡;構造音樂數據集;把音樂數據集轉換成圖像集;用訓練圖像集分別訓練構建的網絡;用測試圖像集分別測試訓練好的各網絡;選擇測試正確率最高的網絡為最終的歌聲檢測網絡;用選定的網絡對被檢測的音頻文件進行歌聲檢測。本發明通過深度殘差網絡隱含提取不同層次的歌聲特征,并能利用嵌入的擠壓和激勵模塊的自適應注意力特性判斷這些特征的重要性,進而鑒別歌聲。
技術領域
本發明涉及音樂人工智能領域,特別是一種基于擠壓和激勵殘差網絡(Squeeze-And-Excitation Residual Neural Network)的歌聲檢測方法。
背景技術
一、本發明相關概念和應用領域
本發明所指歌聲檢測(Singing Voice Detection,SVD)是判斷以數字音頻形式存在于音樂中的每一小段音頻是否含有人的歌聲。在每一小段音樂中,除了人聲,一般還含有演奏樂器的聲音。要在混合樂器和人聲的音樂片段中,判斷是否含有人的聲音是具有挑戰性的工作。歌聲檢測的示意圖如圖1。
歌聲檢測是音樂人工智能領域的重要的基礎性工作,很多其他研究比如歌手識別,歌聲分離,歌詞對齊等都需要歌聲檢測作為事前必備技術或者增強技術。例如,在歌手識別過程中,首先對音樂進行歌聲檢測就是事前必備技術,只有檢測到歌聲后才能通過歌手鑒別過程進行歌手識別。歌聲檢測是對每一小段音頻的二分類問題。我們可以把這段音頻記為X,假定我們的分類函數為f,這小段音頻若含有歌聲則記為1,若不含歌聲則記為0,則我們可以用以下形式來表示歌聲檢測問題:
二、歌聲檢測的一般過程和現有技術
歌聲檢測的過程一般包括預處理、特征提取、分類、后處理等幾部分。預處理主要包括音頻信號去噪、信號分頻等,也有利用歌聲分離技術一定程度上先把歌聲提取出來,再進行處理的。特征提取和分類是歌聲檢測的兩個重要步驟。
特征提取是從音頻信號中提取能表達含有歌聲和不含歌聲音頻之間區別的鑒別信息,鑒別信息稱為特征。較簡單的特征是短時傅里葉變換后的時頻圖,如圖1下半部分。從該圖中可以看到含有人聲的音頻部分,有明顯波動的粗線條,因此從這個特征我們可以判斷音頻是否含有歌聲。特征還包括線性預測系數LPC(Linear Predictive Coefficient),感知線性預測系數PLPC(Perceptual Linear Predictive Coefficient),過零率ZCR(ZeroCross Rate),梅爾頻率倒譜系數MFCCs(Mel Frequency Cepstral Coefficients)等等。
分類是指采取機器學習等方法對特征信息進行分類,主要的分類方法包括支持向量機SVM(Support Vector Machine),隱馬爾可夫模型HMM(Hidden Markov Model),隨機森林RF(Random Forest)等等,也包括近年來出現的深度神經網絡DNN(Deep NeuralNetwork)方法。一些采用CNN(Convolution Neural Network)和RNN(Recurrent NeuralNetwork)的方法在某種程度上提高了歌聲檢測的準確率[1],但是檢測準確率仍有提升空間。
后處理主要對分類的結果利用光滑等技術進行微調,從而達到最終提高檢測準確率。
本發明所使用的文獻如下:
1.K.Lee,K.Choi,J.Nam.Revisiting Singing Voice Detection:aQuantitative Review and the Future Outlook[J].arXiv preprint arXiv:1806.01180,2018.
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于金陵科技學院,未經金陵科技學院許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010164594.5/2.html,轉載請聲明來源鉆瓜專利網。





