[發明專利]一種基于節拍譜特征的語音音樂分類模型在審
| 申請號: | 202011252017.8 | 申請日: | 2020-11-11 |
| 公開(公告)號: | CN112466331A | 公開(公告)日: | 2021-03-09 |
| 發明(設計)人: | 龍華;鄭清杰;邵玉斌;杜慶治 | 申請(專利權)人: | 昆明理工大學 |
| 主分類號: | G10L25/51 | 分類號: | G10L25/51;G10L25/03;G10L25/24 |
| 代理公司: | 北京方圓嘉禾知識產權代理有限公司 11385 | 代理人: | 王月松 |
| 地址: | 650500 云南省昆*** | 國省代碼: | 云南;53 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 節拍 特征 語音 音樂 分類 模型 | ||
1.一種基于節拍譜的話音分類模型,其特征在于:將待識別的音頻信號使用閾值判斷音頻的節拍譜得到音頻類別,該方法具體包括以下步驟:
Step1:搜集話音音頻的訓練數據集;
Step2:對訓練數據集中每個話音音頻計算得到節拍譜;
Step3:通過節拍譜確定閾值。統計音頻節拍譜數據大于閾值的個數,當節拍譜中大于閾值個數比小于閾值個數多,即判定為音樂信號,反之則為語音信號;
Step4:得到基于節拍譜的語音音樂分類模型。
Step5:搜集語音音樂音頻的測試數據集;
Step6:計算測試數據集每個話音的節拍譜;
Step7:使用模型區分測試數據集每個音頻。。
tep8:測試集驗證此模型準確率為98%,能對待測音頻信號準確區分為語音信號還是音樂信號。
2.根據權利要求1所述基于節拍譜的話音分類模型,該分類方法的音頻節拍譜提取具體包括以下步驟:
1:待計算的語音信號。
2:計算語音信號的美爾頻率倒譜系數Mel{x}。式中Mel{x}是以Mel為單位的感知頻率,x是以Hz為單位的實際頻率。
3:計算測試數據集的相似矩陣。其中,x(i)、x(j)為求出的美爾頻率倒譜系數的第i幀,第j幀,R(i,j)為相似矩陣。
4:節拍譜通過計算相似矩陣的自相關得到自相關矩陣。式中R(i,j)為相似矩陣,k為自相關矩陣的行,l為自相關矩陣的列,C(k,l)為自相關矩陣。
5:自相關矩陣的對角線相加得到語音信號的節拍譜。
3.根據權利要求1所述的一種基于節拍譜的話音分類模型,其所述步驟Step3中,閾值由節拍譜來確定,其相關流程如說明書附圖圖5:
其中,初始閾值為隨機設定。使用初始閾值對訓練集語音音樂進行判定,得到準確率,調整閾值再次得到準確率,直到準確率變化不大,則模型的閾值調整完畢。
4.根據權利要求1所述的一種基于節拍譜的話音分類模型,其所述步驟Step6中,對音頻提取節拍譜后,使用訓練集得到的模型對測試集進行判斷得到模型的最終準確率。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于昆明理工大學,未經昆明理工大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011252017.8/1.html,轉載請聲明來源鉆瓜專利網。





