[發明專利]使用卷積神經網絡架構進行音頻處理的方法和裝置在審
| 申請號: | 202180071332.7 | 申請日: | 2021-10-19 |
| 公開(公告)號: | CN116348884A | 公開(公告)日: | 2023-06-27 |
| 發明(設計)人: | 孫俊岱;蘆烈;雙志偉 | 申請(專利權)人: | 杜比實驗室特許公司 |
| 主分類號: | G06N3/0464 | 分類號: | G06N3/0464;G06N3/0455 |
| 代理公司: | 北京市漢坤律師事務所 11602 | 代理人: | 魏小薇;吳麗麗 |
| 地址: | 美國加利*** | 國省代碼: | 暫無信息 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 使用 卷積 神經網絡 架構 進行 音頻 處理 方法 裝置 | ||
描述了基于卷積神經網絡(CNN)進行音頻處理的系統、方法和計算機程序產品。第一CNN架構可以包括U?net的收縮路徑、多尺度CNN和U?net的擴張路徑。收縮路徑可以包括第一編碼層,并且可以被配置為生成收縮路徑的輸出表示。多尺度CNN可以被配置為基于收縮路徑的輸出表示來生成中間表示。多尺度CNN可以包括至少兩條并行卷積路徑。擴張路徑可以包括第一解碼層,并且可以被配置為基于由多尺度CNN生成的中間表示來生成最終表示。在第二CNN架構中,第一編碼層可以包括具有至少兩條并行卷積路徑的第一多尺度CNN,并且第一解碼層可以包括具有至少兩條并行卷積路徑的第二多尺度CNN。
相關申請的交叉引用
本申請要求以下優先申請的優先權:于2020年10月19日提交的PCT國際申請PCT/CN2020/121829、于2020年11月11日提交的美國臨時申請63/112,220以及于2020年12月3日提交的EP申請20211501.0。
技術領域
本公開總體上涉及使用卷積神經網絡(CNN)進行音頻處理的方法和裝置。更具體地,本公開涉及使用基于U-net的CNN架構從原始有噪語音信號中提取語音。
盡管本文將特別參考該公開內容來描述一些實施例,但是應當理解,本公開不限于這種使用領域,并且可應用于更廣泛的背景。
背景技術
在整個公開內容中對背景技術的任何討論絕不應視為承認這種技術是本領域眾所周知的或形成本領域公知常識的一部分。
深度神經網絡(DNN)已經成為解決各種音頻處理問題的可行選擇。DNN的類型包括前饋多層感知器(MLP)、卷積神經網絡(CNN)、循環神經網絡(RNN)和生成對抗網絡(GAN)。其中,CNN是一類前饋網絡。
U-Net架構[O.Ronneberger、P.Fischer和T.Brox,“U-net:Convolutionalnetworks?for?biomedical?image?segmentation”,醫學圖像計算和計算機輔助干預國際會議,Springer[施普林格],2015,第234-241頁]被引入到生物醫學成像中,以提高神經元結構的顯微圖像的精度和定位。該架構建立在如圖1所示的卷積層的棧上。每個下采樣層11、12、13將圖像的大小減半,并將通道的數量加倍。因此,圖像被編碼成小(較少維度)而深的表示。已編碼的潛在特征隨后被上采樣層14、15、16的棧解碼成原始圖像大小。
近年來,通過將音頻頻譜視為圖像,U-Net架構已經被用于音頻處理領域。因此,可以將U-net架構應用于各種音頻處理問題,包括聲音分離、語音增強和語音源分離。語音源分離旨在從背景干擾中恢復目標語音,并在語音和/或音頻技術領域有許多應用。在這種背景下,語音源分離通常也被稱為“雞尾酒會問題”。在這種場景中,由于復雜的背景,從專業內容(比如電影和TV)中提取對話存在挑戰。
本文檔的目的是提供一種新穎的基于U-net的CNN架構,其可以應用于音頻處理的各個領域,包括聲音分離、語音增強和語音源分離。
發明內容
根據本公開的第一方面,提供了一種卷積神經網絡(CNN)架構。例如,CNN架構可以由計算系統實施。CNN架構可以包括U-net的收縮路徑、多尺度CNN和U-net的擴張路徑。收縮路徑可以包括第一編碼層,并且可以被配置為生成收縮路徑的輸出表示。多尺度CNN可以被配置為基于收縮路徑的輸出表示來生成中間表示。多尺度CNN可以包括至少兩條并行卷積路徑。擴張路徑可以包括第一解碼層,并且可以被配置為基于由多尺度CNN生成的中間表示來生成最終表示。
所提出的CNN架構可以適用于或用于音頻處理。這樣,它可以接收第一音頻信號(第一音頻樣本)作為收縮路徑的輸入,并從擴張路徑輸出第二音頻信號(第二音頻樣本)。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于杜比實驗室特許公司,未經杜比實驗室特許公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202180071332.7/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:車輛間間隔的控制
- 下一篇:片材后處理裝置和圖像形成系統





