[發明專利]神經網絡聲碼器訓練方法、裝置、電子設備及存儲介質有效
| 申請號: | 202011347448.2 | 申請日: | 2020-11-26 |
| 公開(公告)號: | CN112599141B | 公開(公告)日: | 2022-02-25 |
| 發明(設計)人: | 聶志朋;陳昌濱 | 申請(專利權)人: | 北京百度網訊科技有限公司 |
| 主分類號: | G10L19/16 | 分類號: | G10L19/16;G10L25/12;G10L25/30;G06N3/04;G06N3/08;G06N20/00;G10L13/02 |
| 代理公司: | 北京鴻德海業知識產權代理有限公司 11412 | 代理人: | 谷春靜 |
| 地址: | 100085 北京市*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 神經網絡 聲碼 訓練 方法 裝置 電子設備 存儲 介質 | ||
本申請公開了神經網絡聲碼器訓練方法、裝置、電子設備及存儲介質,涉及智能語音及深度學習等人工智能領域,其中的方法可包括:從原始音頻數據中提取特征譜,對原始音頻數據進行M次降采樣,得到降采樣音頻數據,M為正整數;將所述特征譜輸入神經網絡聲碼器,分別獲取降采樣音頻數據對應的降采樣音頻預測輸出及原始音頻數據對應的目標音頻預測輸出;根據各預測輸出及對應的音頻數據計算損失,根據計算出的損失對神經網絡聲碼器進行參數更新。應用本申請所述方案,可提升模型訓練效率和模型訓練效果等。
技術領域
本申請涉及人工智能技術領域,特別涉及智能語音及深度學習領域的神經網絡聲碼器訓練方法、裝置、電子設備及存儲介質。
背景技術
神經網絡聲碼器也可稱為神經聲碼器或聲碼器等,在語音合成(TTS,Text ToSpeech)中負責將幀級別的特征譜轉化為實際發聲的語音,是語音合成中至關重要的環節。
通常,神經網絡聲碼器以目標音頻(目標語音)為目標,通過有監督訓練的神經網絡實現從特征譜逐級上采樣到目標音頻。但這種方式中,由于在訓練過程中缺少對中間結果的監督,因此會導致模型訓練效果不佳。
發明內容
本申請提供了神經網絡聲碼器訓練方法、裝置、電子設備及存儲介質。
一種神經網絡聲碼器訓練方法,包括:
從原始音頻數據中提取特征譜,對所述原始音頻數據進行M次降采樣,得到降采樣音頻數據,M為正整數;
將所述特征譜輸入神經網絡聲碼器,分別獲取所述降采樣音頻數據對應的降采樣音頻預測輸出及所述原始音頻數據對應的目標音頻預測輸出;
根據各預測輸出及對應的音頻數據計算損失,根據所述損失對所述神經網絡聲碼器進行參數更新。
一種神經網絡聲碼器訓練裝置,包括:處理模塊以及訓練模塊;
所述處理模塊,用于從原始音頻數據中提取特征譜,對所述原始音頻數據進行M次降采樣,得到降采樣音頻數據,M為正整數;
所述訓練模塊,用于將所述特征譜輸入神經網絡聲碼器,分別獲取所述降采樣音頻數據對應的降采樣音頻預測輸出及所述原始音頻數據對應的目標音頻預測輸出,根據各預測輸出及對應的音頻數據計算損失,根據所述損失對所述神經網絡聲碼器進行參數更新。
一種電子設備,包括:
至少一個處理器;以及
與所述至少一個處理器通信連接的存儲器;其中,
所述存儲器存儲有可被所述至少一個處理器執行的指令,所述指令被所述至少一個處理器執行,以使所述至少一個處理器能夠執行如以上所述的方法。
一種存儲有計算機指令的非瞬時計算機可讀存儲介質,所述計算機指令用于使計算機執行如以上所述的方法。
一種計算機程序產品,包括計算機程序,所述計算機程序在被處理器執行時實現如以上所述的方法。
上述申請中的一個實施例具有如下優點或有益效果:通過引入不同采樣率的多目標音頻對中間結果進行監督,從而減少了中間結果的畸變,且多個訓練目標的監督使得訓練過程收斂更快,訓練損失更低,進而提升了模型訓練效率和模型訓練效果等。
應當理解,本部分所描述的內容并非旨在標識本公開的實施例的關鍵或重要特征,也不用于限制本公開的范圍。本公開的其它特征將通過以下的說明書而變得容易理解。
附圖說明
附圖用于更好地理解本方案,不構成對本申請的限定。其中:
圖1為本申請所述神經網絡聲碼器訓練方法實施例的流程圖;
圖2為本申請所述神經網絡聲碼器訓練方法的整體實現過程示意圖;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京百度網訊科技有限公司,未經北京百度網訊科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011347448.2/2.html,轉載請聲明來源鉆瓜專利網。





