[發明專利]音頻分類方法及裝置在審
| 申請號: | 202110170724.0 | 申請日: | 2021-02-08 |
| 公開(公告)號: | CN112992181A | 公開(公告)日: | 2021-06-18 |
| 發明(設計)人: | 馬進 | 申請(專利權)人: | 上海嗶哩嗶哩科技有限公司 |
| 主分類號: | G10L25/51 | 分類號: | G10L25/51;G10L25/03;G10L25/30;G10L25/18 |
| 代理公司: | 北京智信禾專利代理有限公司 11637 | 代理人: | 劉曉楠 |
| 地址: | 200433 上海市*** | 國省代碼: | 上海;31 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 音頻 分類 方法 裝置 | ||
本申請實施例提供了音頻分類方法及裝置,其中,所述音頻分類方法包括:提取多個待分類音頻的第一音頻特征以及第二音頻特征,根據所述第一音頻特征對所述多個待分類音頻進行聚類處理,生成至少兩個聚類簇,確定目標聚類簇對應的待分類音頻集,并根據所述待分類音頻集中待分類音頻的第二音頻特征,對所述待分類音頻集中的待分類音頻進行篩選獲得目標分類音頻集,其中,所述目標聚類簇為所述至少兩個聚類簇之一,根據獲得的至少兩個目標分類音頻集確定所述多個待分類音頻的音頻分類結果。
技術領域
本申請實施例涉及計算機技術領域,特別涉及一種音頻分類方法。本申請一個或者多個實施例同時涉及一種音頻分類裝置,一種計算設備,以及一種計算機可讀存儲介質。
背景技術
隨著網絡技術的發展和普及,出現了大量聚合類音頻的分發平臺,能夠為網絡用戶提供個性化的音頻服務,包括上傳、搜索、推薦、播放、下載等服務。為了便于用戶搜索和使用音頻,并貼合用戶的興趣和需求進行音頻的推薦,需要對平臺上的海量音頻進行準確的分類并為每個音頻分配全面、合理的標簽。
傳統的對音頻分類的方法有基于機器學習以及淺層卷積神經網絡結構模型進行訓練預測分類,通過對聲音文件進行提取log mel譜圖(Mels)和gammatone譜圖(GTs)等屬性作為輸入數據進行訓練,最終得出分類預測模型進行預測。
但傳統的基于機器學習的方法得出的模型無法有效進行分類預測;而由于淺層卷積神經網絡模型結構單一,魯棒性不足,音頻分類結果的準確率較低。
發明內容
有鑒于此,本申請施例提供了一種音頻分類方法。本申請一個或者多個實施例同時涉及一種音頻分類裝置,一種計算設備,以及一種計算機可讀存儲介質,以解決現有技術中的音頻分類過程存在的音頻分類結果準確性較低的技術缺陷。
根據本申請實施例的第一方面,提供了一種音頻分類方法,包括:
提取多個待分類音頻的第一音頻特征以及第二音頻特征;
根據所述第一音頻特征對所述多個待分類音頻進行聚類處理,生成至少兩個聚類簇;
確定目標聚類簇對應的待分類音頻集,并根據所述待分類音頻集中待分類音頻的第二音頻特征,對所述待分類音頻集中的待分類音頻進行篩選獲得目標分類音頻集,其中,所述目標聚類簇為所述至少兩個聚類簇之一;
根據獲得的至少兩個目標分類音頻集確定所述多個待分類音頻的音頻分類結果。
根據本申請實施例的第二方面,提供了一種音頻分類裝置,包括:
提取模塊,被配置為提取多個待分類音頻的第一音頻特征以及第二音頻特征;
聚類模塊,被配置為根據所述第一音頻特征對所述多個待分類音頻進行聚類處理,生成至少兩個聚類簇;
篩選模塊,被配置為確定目標聚類簇對應的待分類音頻集,并根據所述待分類音頻集中待分類音頻的第二音頻特征,對所述待分類音頻集中的待分類音頻進行篩選獲得目標分類音頻集,其中,所述目標聚類簇為所述至少兩個聚類簇之一;
確定模塊,被配置為根據獲得的至少兩個目標分類音頻集確定所述多個待分類音頻的音頻分類結果。
根據本申請實施例的第三方面,提供了一種計算設備,包括:
存儲器和處理器;
所述存儲器用于存儲計算機可執行指令,所述處理器用于執行所述計算機可執行指令,其中,所述處理器執行所述計算機可執行指令時實現所述音頻分類方法的步驟。
根據本申請實施例的第四方面,提供了一種計算機可讀存儲介質,其存儲有計算機可執行指令,該指令被處理器執行時實現所述音頻分類方法的步驟。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于上海嗶哩嗶哩科技有限公司,未經上海嗶哩嗶哩科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110170724.0/2.html,轉載請聲明來源鉆瓜專利網。





