[發明專利]語音合成方法、裝置、計算機設備和存儲介質在審

申請號：	202211567349.4	申請日：	2022-12-07
公開（公告）號：	CN116168678A	公開（公告）日：	2023-05-26
發明（設計）人：	周驍;胡亞軍;潘嘉	申請（專利權）人：	科大訊飛股份有限公司
主分類號：	G10L13/02	分類號：	G10L13/02;G10L17/04;G10L25/18
代理公司：	深圳紫藤知識產權代理有限公司 44570	代理人：	韓金濤
地址：	230088 安徽***	國省代碼：	安徽;34
權利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關鍵詞：	語音合成方法裝置計算機設備存儲介質
鉆瓜網技術展會專利詞庫專利權人專利榜在售專利公布日期熱門專利

【說明書】：

本申請提供一種語音合成方法、裝置、計算機設備和存儲介質，方法包括獲取待處理的目標樂譜，并提取目標樂譜中的樂譜特征；根據樂譜特征以及預先訓練得到的聲學模型，確定樂譜特征對應的聲學特征；基于聲學特征中的基頻信息生成具有諧波結構的初始波形；根據聲學特征以及初始波形生成目標樂譜對應的目標音頻。本申請實施例在利用聲學模型得到包括基頻、能量、梅爾頻譜等聲學特征后，會基于聲學特征中的基頻信息生成具有諧波結構的初始波形，能夠有效避免后續合成音頻中可能存在的基頻抖動，保證了后續基于聲學特征以及初始波形所生成的目標音頻的音高連續性和發音穩定性，從而提高了語音合成的效果。

技術領域

本申請涉及聲音合成技術領域，具體涉及一種語音合成生成方法、裝置、計算機設備和存儲介質(計算機可讀存儲介質)。

背景技術

歌聲合成旨在讓機器像人類一樣可以有感情的歌唱，歌聲合成可以看作是文本到語音技術在音樂中的擴展。與語音合成相比，歌唱合成的音頻不僅需要體現以文本出現的歌詞，還需要體現歌曲的旋律和情感，因此在娛樂交互領域中具有廣闊的研究和應用價值，越來越多的研究人員開始研究如何提升歌唱合成中的自然度和音質。

目前的歌聲合成主要分為聲學模型處理和聲碼器處理兩個步驟，聲學模型主要用于從含有文本形式的歌詞和符號化的音符的樂譜提取用于合成音頻的聲學特征，如基頻、能量、梅爾頻譜或其他隱變量等，再利用聲碼器將前述得到的聲學特征轉換為音頻波形。但通過前述方式合成的歌聲還存在著音高聽感不連續和發音不穩定的問題，影響語音合成的效果。

發明內容

基于此，有必要針對上述技術問題，提供一種語音合成方法、裝置、計算機設備和存儲介質，用以解決現有的歌聲合成技術還存在的音高聽感不連續和發音不穩定的問題。

第一方面，本申請提供一種語音合成方法，包括：

獲取待處理的目標樂譜，并提取所述目標樂譜中的樂譜特征；

根據所述樂譜特征以及預先訓練得到的聲學模型，確定所述樂譜特征對應的聲學特征；

基于所述聲學特征中的基頻信息生成具有諧波結構的初始波形；

根據所述聲學特征以及所述初始波形生成所述目標樂譜對應的目標音頻。

作為本申請的一種可行實施例，所述基于所述聲學特征中的基頻信息生成具有諧波結構的初始波形，包括：

對所述基頻信息進行上采樣，輸出對應波形點級別的基頻信號；

根據所述基頻信號以及所述基頻信號對應的多次諧波生成正弦激勵信號；

對所述正弦激勵信號進行線性變換，得到具有諧波結構的初始波形。

作為本申請的一種可行實施例，所述對所述正弦激勵信號進行線性變換，得到具有諧波結構的初始波形，包括：