[發明專利]一種音頻合成方法、裝置、設備及計算機可讀存儲介質在審
| 申請號: | 202011296891.1 | 申請日: | 2020-11-18 |
| 公開(公告)號: | CN112420015A | 公開(公告)日: | 2021-02-26 |
| 發明(設計)人: | 徐東 | 申請(專利權)人: | 騰訊音樂娛樂科技(深圳)有限公司 |
| 主分類號: | G10L13/02 | 分類號: | G10L13/02;G10L13/08;G10L25/30;G10L25/51 |
| 代理公司: | 深圳市深佳知識產權代理事務所(普通合伙) 44285 | 代理人: | 張金香 |
| 地址: | 518052 廣東省深圳市前海深港合作區前*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 音頻 合成 方法 裝置 設備 計算機 可讀 存儲 介質 | ||
1.一種音頻合成方法,其特征在于,包括:
獲取干聲音頻;
獲取與所述干聲音頻對應的原始音素數據,所述原始音素數據包括所述干聲音頻中音素的起止時間,所述起止時間包括開始時間與結束時間;
獲取對所述原始音素數據進行錯誤修復后得到的校準音素數據;
將所述原始音素數據與所述校準音素數據進行對比,將起止時間相同且音素相同的音素數據確定為互驗音素數據;
將所述互驗音素數據與所述干聲音頻進行處理,得到所述互驗音素數據對應的互驗干聲;
基于所述互驗音素數據及所述互驗干聲對神經網絡模型進行訓練,以基于訓練好的所述神經網絡模型進行音頻合成。
2.根據權利要求1所述的方法,其特征在于,所述將所述原始音素數據與所述校準音素數據進行對比,將起止時間相同且音素相同的音素數據確定為互驗音素數據,包括:
在所述原始音素數據中,將持續時長小于預設時長的音素數據置為sil音素,得到篩除后原始音素數據;
在所述校準音素數據中,將持續時長小于所述預設時長的音素數據置為所述sil音素,得到篩除后校準音素數據;
在所述篩除后校準音素數據中,將起止時間與所述篩除后原始音素數據中的起止時間相同、但音素不同的音素置為所述sil音素,得到處理后的校準音素數據;
將所述處理后的校準音素數據確定為所述互驗音素數據。
3.根據權利要求2所述的方法,其特征在于,所述將所述處理后的校準音素數據確定為所述互驗音素數據,包括:
確定出所述處理后的校準音素數據中的相鄰音素數據;
若所述相鄰音素數據的起止時間不連續,則在所述處理后的校準音素數據中,將所述相鄰音素數據的起止時間調整為連續,將調整后的校準音素數據確定為所述互驗音素數據;
若所述相鄰音素數據的起止時間連續,則直接將所述處理后的校準音素數據確定為所述互驗音素數據。
4.根據權利要求3所述的方法,其特征在于,所述將所述互驗音素數據與所述干聲音頻進行處理,得到所述互驗音素數據對應的互驗干聲,包括:
獲取所述互驗音素數據中內容為sil的音素的目標起止時間;
在所述干聲音頻中,將起止時間與所述目標起止時間相同的干聲內容置為靜音,將調整后的所述干聲音頻作為所述互驗干聲。
5.根據權利要求4所述的方法,其特征在于,所述將起止時間與所述目標起止時間相同的干聲內容置為靜音,包括:
確定出起止時間與所述目標起止時間相同的所述干聲內容;
按照所述干聲內容的生成順序,將所述干聲內容分為起始段干聲內容、中間段干聲內容及結束段干聲內容;
對所述起始段干聲內容進行淡出處理,將淡出處理結果作為所述起始段干聲內容的靜音結果;
直接將所述中間段干聲內容置為靜音;
對所述結束段干聲內容進行淡入處理,將淡入處理結果作為所述結束段干聲內容的靜音結果。
6.根據權利要求5所述的方法,其特征在于,所述對所述起始段干聲內容進行淡出處理,包括:
將所述起始段干聲內容的音頻與預設cos函數相乘,得到所述淡出處理結果;
所述對所述結束段干聲內容進行淡入處理,包括:
將所述結束段干聲內容的音頻與預設sin函數相乘,得到所述淡入處理結果。
7.根據權利要求1至6任一項所述的方法,其特征在于,所述獲取干聲音頻,包括:
獲取音頻格式為WAV的所述干聲音頻。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于騰訊音樂娛樂科技(深圳)有限公司,未經騰訊音樂娛樂科技(深圳)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011296891.1/1.html,轉載請聲明來源鉆瓜專利網。





