[發明專利]一種基于NMF非負矩陣分解的音頻分離方法無效
| 申請號: | 201210541700.2 | 申請日: | 2012-12-13 |
| 公開(公告)號: | CN103871423A | 公開(公告)日: | 2014-06-18 |
| 發明(設計)人: | 王雷 | 申請(專利權)人: | 上海八方視界網絡科技有限公司 |
| 主分類號: | G10L21/028 | 分類號: | G10L21/028;G10L19/032;G10L15/06 |
| 代理公司: | 上海申新律師事務所 31272 | 代理人: | 袁亞軍 |
| 地址: | 200941 上海市寶*** | 國省代碼: | 上海;31 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 nmf 矩陣 分解 音頻 分離 方法 | ||
1.一種基于NMF非負矩陣分解的音頻分離方法,其包括輔助音樂語音區分模塊和NMF非負矩陣分解模塊,其特征在于:其方法為:
所述的輔助音樂語音區分模塊利用機器學習的方法通過提取大量的語音音樂音頻的相關音頻特征作為訓練樣本,通過SVM算法進行訓練得到識別模型;
所述的NMF非負矩陣分解模塊利用NMF非負矩陣分解方法,通過對原音頻信號矩陣進行迭代分解,直到分解結果達到代價函數與輔助區分模塊的要求則停止。
2.根據權利要求1所述的基于NMF非負矩陣分解的音頻分離方法,其特征在于:所述的輔助音樂語音區分模塊利用機器學習的方法步驟如下:
(a)、需要采集大量的語音、音樂以及既非語音也非音樂的音頻文件作為訓練樣本,從而得到相應的區分模型;
(b)、提取音頻特征中的靜音幀率、高過零率幀比率、低能量幀率、譜通量以及和諧度五個音頻量化特征構成每個音頻的特征向量,作為及其學習訓練的輸入向量集;
(c)、利用SVM算法對于步驟(b)中所得到的向量集進行建模,得到所需要的用以識別語音與音樂視頻的識別模型。
3.根據權利要求1所述的基于NMF非負矩陣分解的音頻分離方法,其特征在于:所述的NMF非負矩陣分解模塊利用NMF非負矩陣分解方法的步驟如下:
(1)、首先,建立NMF非負矩陣分解的基本依據公式;
(2)、而后,依據在盲狀態模型構建出符合要求的歐幾里得距離代價函數,即判斷分解結束的主要條件;
(3)、依據此代價函數與基本函數,會得到用以分解原信號矩陣的迭代公式,并依據迭代公式進行迭代分解;
(4)、當每次迭代完成之后,將利用預先設定的JEcu1門限進行判別,若達到門限則提取兩個矩陣的相應特征向量,利用之前得到的語音音樂模型進行是否為語音或者音樂的判斷;若判斷失敗,則繼續利用c中所述方法進行迭代分解;若判斷成功則在判斷其是否達到門限JEcu2,直到達到該門限時,停止迭代過程。
4.根據權利3所述的基于NMF非負矩陣分解的音頻分離方法,其特征在于:所述步驟(1)中,NMF非負矩陣分解的基本依據公式為:
Y=Ys+Ym+V=AsXs+AmXm+V
其中,Y?∈RN×T?為觀察信號的幅度譜,A∈?RN×B,X?∈RB×T?,V?∈?RN×T?分別表示Y的基本矩陣、系數矩陣和誤差殘留矩陣;
上標N,T,B?分別表示頻率點數、幀數和基本矩陣所含向量的維數;
A,X?均為非負矩陣,其各元素都大等于0;
下表s與m則代表該矩陣屬于語音音頻的矩陣和音樂音頻的矩陣。
5.根據權利3所述的基于NMF非負矩陣分解的音頻分離方法,其特征在于:所述步驟(2)中,歐幾里得距離代價函數定義為:
JEcu=0.5||Y-AsXs+AmXm||F2
6.根據權利3所述的基于NMF非負矩陣分解的音頻分離方法,其特征在于:所述步驟(3)中,分解原信號矩陣的迭代公式定義為:
其中,,,,表示梯度下降學習的速率;
在第一次迭代的時,利用某音樂音頻的信號矩陣Am與某語音音頻的信號矩陣As以及單位矩陣作為AsXs以及AmXm的初始矩陣。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于上海八方視界網絡科技有限公司,未經上海八方視界網絡科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201210541700.2/1.html,轉載請聲明來源鉆瓜專利網。





