[發明專利]一種音頻合成方法、裝置、設備及計算機可讀存儲介質在審

申請號：	202011296891.1	申請日：	2020-11-18
公開（公告）號：	CN112420015A	公開（公告）日：	2021-02-26
發明（設計）人：	徐東	申請（專利權）人：	騰訊音樂娛樂科技（深圳）有限公司
主分類號：	G10L13/02	分類號：	G10L13/02;G10L13/08;G10L25/30;G10L25/51
代理公司：	深圳市深佳知識產權代理事務所(普通合伙) 44285	代理人：	張金香
地址：	518052 廣東省深圳市前海深港合作區前***	國省代碼：	廣東;44
權利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關鍵詞：	一種音頻合成方法裝置設備計算機可讀存儲介質
鉆瓜網技術展會專利詞庫專利權人專利榜在售專利公布日期熱門專利

【說明書】：

本申請公開了一種音頻合成方法、裝置、設備及介質，獲取干聲音頻；獲取與干聲音頻對應的原始音素數據；獲取對原始音素數據進行錯誤修復后得到的校準音素數據；將原始音素數據與校準音素數據進行對比，將起止時間相同且音素相同的音素數據確定為互驗音素數據；將互驗音素數據與干聲音頻進行處理，得到互驗音素數據對應的互驗干聲；基于互驗音素數據及互驗干聲對神經網絡模型進行訓練，以基于訓練好的神經網絡模型進行音頻合成。本申請可以本申請通過音素互驗技術對不同類型的音素數據進行技術處理，獲得更有效的音素結果以及干聲音頻，從而有利于神經網絡模型的訓練，提升訓練效率與合成音頻的音質。

技術領域

本申請涉及音頻合成技術領域，更具體地說，涉及一種音頻合成方法、裝置、設備及計算機可讀存儲介質。

背景技術

當前，在錄制歌曲的過程中，會收集用戶的干聲，干聲也即純人聲。音素，是人類語言中能夠區別意義的最小聲音單位。在歌詞文本的先驗信息，通過語音分析可以獲得用戶演唱每個音素的起止時間，即得到干聲對應的音素結果，該音素結果可以用于神經網絡模型的訓練與合成，服務于音頻的自動合成場景。在此過程中，需要有高精度的音素起止時間數據、干聲音頻及合適的數據處理方法，然而，申請人發現在合成音頻的過程中至少存在如下問題：音素起止時間不夠精確，合成的音頻的質量較低。

綜上所述，如何提高合成的音頻的質量是目前本領域技術人員亟待解決的問題。

發明內容

有鑒于此，本申請的目的在于提供一種音頻合成方法、裝置、設備及計算機可讀存儲介質，能夠提高合成的音頻的質量。其具體方案如下：

第一方面，本申請公開了一種音頻合成方法，包括：

獲取干聲音頻；

獲取與所述干聲音頻對應的原始音素數據，所述原始音素數據包括所述干聲音頻中音素的起止時間，所述起止時間包括開始時間與結束時間；

獲取對所述原始音素數據進行錯誤修復后得到的校準音素數據；

將所述原始音素數據與所述校準音素數據進行對比，將起止時間相同且音素相同的音素數據確定為互驗音素數據；

將所述互驗音素數據與所述干聲音頻進行處理，得到所述互驗音素數據對應的互驗干聲；

基于所述互驗音素數據及所述互驗干聲對神經網絡模型進行訓練，以基于訓練好的所述神經網絡模型進行音頻合成。

可選的，所述將所述原始音素數據與所述校準音素數據進行對比，將起止時間相同且音素相同的音素數據確定為互驗音素數據，包括：

在所述原始音素數據中，將持續時長小于預設時長的音素數據置為sil音素，得到篩除后原始音素數據；