[發明專利]音頻識別模型的訓練方法、音頻識別方法、裝置及設備有效
| 申請號: | 202010314878.8 | 申請日: | 2020-04-20 |
| 公開(公告)號: | CN111508480B | 公開(公告)日: | 2023-07-28 |
| 發明(設計)人: | 冀先朋;丁彧;范長杰;胡志鵬 | 申請(專利權)人: | 網易(杭州)網絡有限公司 |
| 主分類號: | G10L15/06 | 分類號: | G10L15/06;G10L15/08;G10L15/16;G10L15/26;G06N3/0464;G06N3/084 |
| 代理公司: | 北京超成律師事務所 11646 | 代理人: | 劉靜 |
| 地址: | 310052 浙江省杭州*** | 國省代碼: | 浙江;33 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 音頻 識別 模型 訓練 方法 裝置 設備 | ||
本申請提供一種音頻識別模型的訓練方法、音頻識別方法、裝置及設備,涉及人工智能技術領域。其中,該訓練方法通過獲取訓練數據集,訓練數據集包括標注有音符類別標簽的多個預設長度的訓練樣本數據,訓練樣本數據包括音頻特征數據和與音頻特征數據相對應的演奏者的動作特征數據,進而通過神經網絡模型,利用音符類別標簽、訓練數據集中的音頻特征數據與相對應的演奏者的動作特征數據進行訓練獲取的音頻識別模型可以用于音頻數據中音符類別的識別和分割,相較于人工識別和分割的方式,可以省時省力,節省人力成本,且可以提高音符類別識別和分割的準確性。
技術領域
本申請涉及人工智能技術領域,特別涉及一種音頻識別模型的訓練方法、音頻識別方法、裝置及設備。
背景技術
隨著人工智能技術在多媒體制作、游戲內容制作等領域的應用進入實用化階段,實現對原始演奏音樂的時段分割與音符識別的需求越來越受到人們的關注。一個好的演奏樂音分割與識別技術能夠為多媒體信息(尤其是音樂數據)的后續處理、編輯、挖掘及人機交互、游戲玩法設計等領域帶來極大便利。
現有的,對于演奏樂音的分割與識別主要是通過人工來實現,即經過預先訓練的專業人員,通過聽取原始音頻錄音,或使用標注軟件,對音符的起止時間和音符類別進行人工標記。
但現有的采用人工進行識別、分割的方式,存在耗時耗力,人力成本高且容易出現分割時間位點不準、音符識別錯誤。
發明內容
本申請的目的在于,針對上述現有技術中的不足,提供一種音頻識別模型的訓練方法、音頻識別方法、裝置及設備,可以解決現有技術中采用人工方式進行識別、分割時,工作效率低以及準確度較低的技術問題。
為實現上述目的,本申請實施例采用的技術方案如下:
第一方面,本申請實施例提供了一種音頻識別模型的訓練方法,包括:
獲取訓練數據集,所述訓練數據集包括標注有音符類別標簽的多個預設長度的訓練樣本數據,所述訓練樣本數據包括音頻特征數據和與所述音頻特征數據相對應的演奏者的動作特征數據;
通過神經網絡模型,利用音符類別標簽和所述訓練數據集中的音頻特征數據與相對應的演奏者的動作特征數據進行訓練,以獲取音頻識別模型。
可選地,上述獲取訓練數據集,包括:
獲取標注有音符類別標簽的初始訓練樣本數據,所述初始訓練樣本數據包括:初始音頻特征數據和與所述初始音頻特征數據對應的演奏者的初始動作特征數據;
采用預設長度數據截取窗口對所述初始訓練樣本數據進行滑動截取,獲取截取后的多個訓練樣本數據;
從所述截取后的多個訓練樣本數據中獲取所述訓練數據集和測試數據集,所述測試數據集包括標注有音符類別標簽的多個預設長度的訓練樣本數據。
可選地,預先根據所述音頻特征數據和所述動作特征數據形成多模態特征數據,上述神經網絡模型包括至少一層特征提取層和與所述至少一層特征提取層對應的類別預測層,所述通過神經網絡模型,利用音符類別標簽和所述訓練數據集中的音頻特征數據與相對應的演奏者的動作特征數據進行訓練,以獲取音頻識別模型,包括:
采用所述至少一層特征提取層對所述訓練數據集中的訓練樣本數據的多模態特征數據進行逐級提取,以得到逐級提取的多模態特征數據;
通過所述類別預測層,利用所述逐級提取的多模態特征數據和對應的音符類型標簽進行訓練,以獲取所述音頻識別模型。
可選地,音頻特征數據包括音頻數據的響度和音頻數據的梅爾倒譜系數。
可選地,所述特征提取層包括至少一層卷積特征提取層和至少一層最大值池化層,每層所述卷積特征提取層后跟隨一層最大值池化層;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于網易(杭州)網絡有限公司,未經網易(杭州)網絡有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010314878.8/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種工業環保用噴灑裝置
- 下一篇:一種用于自動售賣機的壓噴式氣味播放裝置





