[發明專利]語音合成方法、裝置、計算機設備和存儲介質在審
| 申請號: | 202211567349.4 | 申請日: | 2022-12-07 |
| 公開(公告)號: | CN116168678A | 公開(公告)日: | 2023-05-26 |
| 發明(設計)人: | 周驍;胡亞軍;潘嘉 | 申請(專利權)人: | 科大訊飛股份有限公司 |
| 主分類號: | G10L13/02 | 分類號: | G10L13/02;G10L17/04;G10L25/18 |
| 代理公司: | 深圳紫藤知識產權代理有限公司 44570 | 代理人: | 韓金濤 |
| 地址: | 230088 安徽*** | 國省代碼: | 安徽;34 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 語音 合成 方法 裝置 計算機 設備 存儲 介質 | ||
1.一種語音合成方法,其特征在于,包括:
獲取待處理的目標樂譜,并提取所述目標樂譜中的樂譜特征;
根據所述樂譜特征以及預先訓練得到的聲學模型,確定所述樂譜特征對應的聲學特征;
基于所述聲學特征中的基頻信息生成具有諧波結構的初始波形;
根據所述聲學特征以及所述初始波形生成所述目標樂譜對應的目標音頻。
2.根據權利要求1所述的語音合成方法,其特征在于,所述基于所述聲學特征中的基頻信息生成具有諧波結構的初始波形,包括:
對所述基頻信息進行上采樣,輸出對應波形點級別的基頻信號;
根據所述基頻信號以及所述基頻信號對應的多次諧波生成正弦激勵信號;
對所述正弦激勵信號進行線性變換,得到具有諧波結構的初始波形。
3.根據權利要求2所述的語音合成方法,其特征在于,所述對所述正弦激勵信號進行線性變換,得到具有諧波結構的初始波形,包括:
獲取預先基于訓練樣本樂譜以及訓練樣本音頻訓練得到的后處理網絡模型;
將所述正弦激勵信號輸入至所述后處理網絡模型,得到具有諧波結構的初始波形。
4.根據權利要求1所述的語音合成方法,其特征在于,所述根據所述聲學特征以及所述初始波形生成所述目標樂譜對應的目標音頻,包括:
對所述聲學特征和所述初始波形分別進行采樣處理,得到對應分辨率相同的第一特征序列和第二特征序列;
將所述第一特征序列和所述第二特征序列相加,得到融合特征序列;
基于所述融合特征序列生成所述目標樂譜對應的目標音頻。
5.根據權利要求4所述的語音合成方法,其特征在于,所述基于所述融合特征序列生成所述目標樂譜對應的目標音頻,包括:
獲取預先基于訓練樣本樂譜以及訓練樣本音頻訓練得到的聲碼器;
將所述融合特征序列輸入至所述聲碼器,輸出所述目標樂譜對應的目標音頻。
6.根據權利要求1所述的語音合成方法,其特征在于,所述聲學模型包括顫音預測器;
所述根據所述樂譜特征以及預先訓練得到的聲學模型,確定所述樂譜特征對應的聲學特征,包括:
基于所述樂譜特征確定所述樂譜特征對應的基頻信息;
將所述基頻信息對應的對數基頻輸入至所述顫音預測器,輸出與所述對數基頻對應的顫音分布特征;
將所述顫音分布特征確定為所述樂譜特征對應的聲學特征。
7.根據權利要求6所述的語音合成方法,其特征在于,所述顫音預測器是基于流模型的生成式模型。
8.根據權利要求1所述的語音合成方法,其特征在于,所述根據所述樂譜特征以及預先訓練得到的聲學模型,確定所述樂譜特征對應的聲學特征之前,所述方法還包括:
獲取訓練樣本樂譜以及所述訓練樣本樂譜對應的訓練樣本音頻,并提取所述訓練樣本樂譜對應的訓練樂譜特征,以及所述訓練樣本音頻對應的訓練聲學特征;
將所述訓練樂譜特征輸入至預設的初始聲學模型,輸出預測聲學特征;
根據所述預測聲學特征與所述訓練聲學特征的差異,以及所述初始聲學模型對應的訓練次數,對所述初始聲學模型中的參數進行更新,得到更新后的聲學模型;所述初始聲學模型中的參數至少包括先驗網絡模型中的殘差連接系數;
直至將所述訓練樂譜特征輸入至更新后的聲學模型得到的預測聲學特征與所述訓練聲學特征滿足預設要求,將當前的聲學模型確定為預先訓練得到的聲學模型。
9.根據權利要求1~7任一項所述的語音合成方法,其特征在于,所述提取所述目標樂譜中的樂譜特征,包括:
基于所述目標樂譜中的文本歌詞信息,生成文本編碼特征;
基于所述目標樂譜中音符信息對應的音符時長,以及所述文本編碼特征確定所述目標樂譜中的樂譜特征。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于科大訊飛股份有限公司,未經科大訊飛股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202211567349.4/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:顯示面板和顯示裝置
- 下一篇:一種基于重力作用下的線陣釋放機構





