[發明專利]音頻數據處理方法、裝置、設備和存儲介質有效
| 申請號: | 202011461369.4 | 申請日: | 2020-12-09 |
| 公開(公告)號: | CN112669861B | 公開(公告)日: | 2023-04-07 |
| 發明(設計)人: | 袁俊;陳昌濱;王俊超;聶志朋 | 申請(專利權)人: | 北京百度網訊科技有限公司 |
| 主分類號: | G10L21/003 | 分類號: | G10L21/003;G10L21/007;G10L25/30;G10L25/03;G06N3/0464;G06N3/0985 |
| 代理公司: | 北京清亦華知識產權代理事務所(普通合伙) 11201 | 代理人: | 韓?;?/td> |
| 地址: | 100085 北京市*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 音頻 數據處理 方法 裝置 設備 存儲 介質 | ||
本申請公開了音頻數據處理方法、裝置、設備和存儲介質,涉及語音技術、深度學習等人工智能技術領域。具體實現方案為:獲取待處理音頻數據的原始特征張量;根據原始特征張量與可學習的權值張量,獲取待處理特征張量和關鍵特征張量;分別對待處理特征張量和關鍵特征張量中的目標維度進行維度變換,獲取待壓縮特征張量和候選關鍵特征張量;根據待壓縮特征張量和候選關鍵特征張量,獲取權重矩陣;根據權重矩陣和候選關鍵特征張量,獲取目標特征張量,對目標特征張量進行處理,獲取壓縮特征張量;將壓縮特征張量輸入神經網絡進行處理,獲取待處理音頻數據的處理結果。由此,在保證信息壓縮質量的同時提高信息壓縮效率,提高后續語音處理效果。
技術領域
本申請涉及數據處理技術領域中的語音技術、深度學習等人工智能技術領域,尤其涉及一種音頻數據處理方法、裝置、設備和存儲介質。
背景技術
人工智能是研究使計算機來模擬人的某些思維過程和智能行為(如學習、推理、思考、規劃等)的學科,既有硬件層面的技術也有軟件層面的技術。人工智能技術一般包括如傳感器、專用人工智能芯片、云計算、分布式存儲、大數據處理等技術;人工智能軟件技術主要包括計算機視覺技術、語音識別技術、自然語言處理技術以及機器學習/深度學習、大數據處理技術、知識圖譜技術等幾個大方向。
通常,在人工神經網絡中,需要通過信息瓶頸(Inform?ation?Bottleneck)結構來壓縮特征維度,以保留主要特征,去除不必要的信息。舉例而言,在音色轉換(VoiceConversion)神經網絡中常常設計有信息瓶頸,通常通過壓縮通道維在保留原始語言內容和風格的同時擠除原始音色,以實現較好的音色轉換效果。
相關技術中,通過池化層采取過于極端的方式去壓縮維度,比如最大池化處理只取最大值而忽略一些信息細節,再比如平均池化處理又過于平均而弱化主要信息,因此,壓縮效率和效果都比較差。
發明內容
本公開提供了一種用于音頻數據處理的方法、裝置、設備和存儲介質。
根據本公開的一方面,提供了一種音頻數據處理方法,包括:
獲取待處理音頻數據的原始特征張量,并根據所述原始特征張量與可學習的權值張量,獲取待處理特征張量和關鍵特征張量;
分別對所述待處理特征張量和所述關鍵特征張量進行維度變換,獲取待壓縮特征張量和候選關鍵特征張量;
獲取權重矩陣,并根據所述權重矩陣和所述候選關鍵特征張量,獲取目標特征張量;
對所述目標特征張量進行處理,獲取壓縮特征張量輸入神經網絡進行處理,獲取所述待處理音頻數據的處理結果。
根據本公開的另一方面,提供了一種音頻數據處理裝置,包括:
第一獲取模塊,用于獲取待處理音頻數據的原始特征張量;
第二獲取模塊,用于根據所述原始特征張量與可學習的權值張量,獲取待處理特征張量和關鍵特征張量;
第三獲取模塊,用于分別對所述待處理特征張量和所述關鍵特征張量中的目標維度進行維度變換,獲取待壓縮特征張量和候選關鍵特征張量;
第四獲取模塊,用于獲取權重矩陣;
第五獲取模塊,用于根據所述權重矩陣和所述候選關鍵特征張量,獲取目標特征張量;
處理模塊,用于對所述目標特征張量進行處理,獲取壓縮特征張量,將所述壓縮特征張量輸入神經網絡進行處理,獲取所述待處理音頻數據的處理結果。
根據第三方面,提供了一種電子設備,包括:至少一個處理器;以及與所述至少一個處理器通信連接的存儲器;其中,所述存儲器存儲有可被所述至少一個處理器執行的指令,所述指令被所述至少一個處理器執行,以使所述至少一個處理器能夠執行上述實施例描述的音頻數據處理方法。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京百度網訊科技有限公司,未經北京百度網訊科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011461369.4/2.html,轉載請聲明來源鉆瓜專利網。





