[發明專利]音頻分類模型的訓練方法、音頻分類方法、裝置及設備在審
| 申請號: | 202010173624.9 | 申請日: | 2020-03-13 |
| 公開(公告)號: | CN111369982A | 公開(公告)日: | 2020-07-03 |
| 發明(設計)人: | 鄧菁;王秋明 | 申請(專利權)人: | 北京遠鑒信息技術有限公司 |
| 主分類號: | G10L15/06 | 分類號: | G10L15/06;G10L15/08;G10L21/0272;G10L25/51;G10L25/81 |
| 代理公司: | 北京超凡宏宇專利代理事務所(特殊普通合伙) 11463 | 代理人: | 安衛靜 |
| 地址: | 100000 北京市海淀區*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 音頻 分類 模型 訓練 方法 裝置 設備 | ||
本申請提供一種音頻分類模型的訓練方法、音頻分類方法、裝置及設備,屬于音頻處理技術領域。音頻分類模型的訓練方法包括:獲取音頻樣本,音頻樣本包括:語音音頻樣本、音樂音頻樣本;對各音頻樣本進行分幀,并提取幀特征;采用預設窗函數,提取各音頻樣本中每幀的窗特征,并根據幀特征獲取組合特征,其中,組合特征標記語音標簽或音樂標簽;采用組合特征和預設神經網絡,訓練獲取音頻分類模型。本申請可以將復雜程度較高的音樂音頻和語音音頻進行分類,進而提高分類結果的準確性。
技術領域
本申請涉及音頻處理技術領域,具體而言,涉及一種音頻分類模型的訓練方法、音頻分類方法、裝置及設備。
背景技術
音樂和語音是音頻中重要的兩類數據,而在音頻的現實應用中,音樂和語音很多時候是混在一起的,即有的時間段是音樂,有的時間段是語音,有的時候兩者混疊在一起。
為了將音樂和語音區分開來,相關技術人員通常是基于相關性的后驗決策方法對貝葉斯最大后驗分類器的結果進行了處理來實現語音和音樂的分類。或者,采用的盲分離技術,將混在一起的背景音樂與人聲分離開來,分別采用不同的技術進行后處理。
然而,上述現有技術主要是根據統計得到的音頻數據的數據特征和專家的經驗來進行分類,分類的準確性不高。
發明內容
本申請的目的在于提供一種音頻分類模型的訓練方法、音頻分類方法、裝置及設備,可以提高音頻分類結果的準確性。
本申請的實施例是這樣實現的:
本申請實施例的一方面,提供一種音頻分類模型的訓練方法,該方法包括:
獲取音頻樣本,音頻樣本包括:語音音頻樣本、音樂音頻樣本;
對各音頻樣本進行分幀,并提取幀特征;
采用預設窗函數,提取各音頻樣本中每幀的窗特征,并根據幀特征獲取組合特征,其中,組合特征標記語音標簽或音樂標簽;
采用組合特征和預設神經網絡,訓練獲取音頻分類模型。
可選地,采用組合特征和預設神經網絡,訓練獲取音頻分類模型,包括:
將組合特征代入預設神經網絡進行前向運算,并根據損失函數獲取每次迭代的梯度值;
根據梯度值調整預設神經網絡中的參數后,繼續訓練,直到滿足收斂條件,獲取音頻分類模型。
可選地,采用預設窗函數,提取各音頻樣本中每幀的窗特征,并根據幀特征獲取組合特征之后,還包括:
將組合特征劃分為訓練樣本集和測試樣本集。
可選地,采用組合特征和預設神經網絡,訓練獲取音頻分類模型,包括:
采用訓練樣本集和預設神經網絡,訓練獲取音頻分類模型。
可選地,采用組合特征和預設神經網絡,訓練獲取音頻分類模型之后,還包括:
將測試樣本集代入音頻分類模型,獲取測試分類結果;
根據測試分類結果以及測試樣本集中組合特征的標簽,判斷音頻分類模型是否合格。
本申請實施例的另一方面,提供一種音頻分類方法,該方法包括:
對待識別音頻信號進行分幀,并提取各幀的幀特征;
采用預設窗函數,提取各幀的窗特征,并根據幀特征獲取組合特征;
將組合特征代入音頻分類模型,將待識別音頻信號的音樂信號和語音信號分離,其中,音頻分類模型采用音頻樣本的組合特征訓練獲取,音頻樣本包括:語音音頻樣本、音樂音頻樣本,音頻樣本的組合特征標記語音標簽或音樂標簽。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京遠鑒信息技術有限公司,未經北京遠鑒信息技術有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010173624.9/2.html,轉載請聲明來源鉆瓜專利網。





