[發明專利]語音合成方法、裝置、計算機設備和存儲介質在審
| 申請號: | 202211567349.4 | 申請日: | 2022-12-07 |
| 公開(公告)號: | CN116168678A | 公開(公告)日: | 2023-05-26 |
| 發明(設計)人: | 周驍;胡亞軍;潘嘉 | 申請(專利權)人: | 科大訊飛股份有限公司 |
| 主分類號: | G10L13/02 | 分類號: | G10L13/02;G10L17/04;G10L25/18 |
| 代理公司: | 深圳紫藤知識產權代理有限公司 44570 | 代理人: | 韓金濤 |
| 地址: | 230088 安徽*** | 國省代碼: | 安徽;34 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 語音 合成 方法 裝置 計算機 設備 存儲 介質 | ||
本申請提供一種語音合成方法、裝置、計算機設備和存儲介質,方法包括獲取待處理的目標樂譜,并提取目標樂譜中的樂譜特征;根據樂譜特征以及預先訓練得到的聲學模型,確定樂譜特征對應的聲學特征;基于聲學特征中的基頻信息生成具有諧波結構的初始波形;根據聲學特征以及初始波形生成目標樂譜對應的目標音頻。本申請實施例在利用聲學模型得到包括基頻、能量、梅爾頻譜等聲學特征后,會基于聲學特征中的基頻信息生成具有諧波結構的初始波形,能夠有效避免后續合成音頻中可能存在的基頻抖動,保證了后續基于聲學特征以及初始波形所生成的目標音頻的音高連續性和發音穩定性,從而提高了語音合成的效果。
技術領域
本申請涉及聲音合成技術領域,具體涉及一種語音合成生成方法、裝置、計算機設備和存儲介質(計算機可讀存儲介質)。
背景技術
歌聲合成旨在讓機器像人類一樣可以有感情的歌唱,歌聲合成可以看作是文本到語音技術在音樂中的擴展。與語音合成相比,歌唱合成的音頻不僅需要體現以文本出現的歌詞,還需要體現歌曲的旋律和情感,因此在娛樂交互領域中具有廣闊的研究和應用價值,越來越多的研究人員開始研究如何提升歌唱合成中的自然度和音質。
目前的歌聲合成主要分為聲學模型處理和聲碼器處理兩個步驟,聲學模型主要用于從含有文本形式的歌詞和符號化的音符的樂譜提取用于合成音頻的聲學特征,如基頻、能量、梅爾頻譜或其他隱變量等,再利用聲碼器將前述得到的聲學特征轉換為音頻波形。但通過前述方式合成的歌聲還存在著音高聽感不連續和發音不穩定的問題,影響語音合成的效果。
發明內容
基于此,有必要針對上述技術問題,提供一種語音合成方法、裝置、計算機設備和存儲介質,用以解決現有的歌聲合成技術還存在的音高聽感不連續和發音不穩定的問題。
第一方面,本申請提供一種語音合成方法,包括:
獲取待處理的目標樂譜,并提取所述目標樂譜中的樂譜特征;
根據所述樂譜特征以及預先訓練得到的聲學模型,確定所述樂譜特征對應的聲學特征;
基于所述聲學特征中的基頻信息生成具有諧波結構的初始波形;
根據所述聲學特征以及所述初始波形生成所述目標樂譜對應的目標音頻。
作為本申請的一種可行實施例,所述基于所述聲學特征中的基頻信息生成具有諧波結構的初始波形,包括:
對所述基頻信息進行上采樣,輸出對應波形點級別的基頻信號;
根據所述基頻信號以及所述基頻信號對應的多次諧波生成正弦激勵信號;
對所述正弦激勵信號進行線性變換,得到具有諧波結構的初始波形。
作為本申請的一種可行實施例,所述對所述正弦激勵信號進行線性變換,得到具有諧波結構的初始波形,包括:
獲取預先基于訓練樣本樂譜以及訓練樣本音頻訓練得到的后處理網絡模型;
將所述正弦激勵信號輸入至所述后處理網絡模型,得到具有諧波結構的初始波形。
作為本申請的一種可行實施例,所述根據所述聲學特征以及所述初始波形生成所述目標樂譜對應的目標音頻,包括:
對所述聲學特征和所述初始波形分別進行采樣處理,得到對應分辨率相同的第一特征序列和第二特征序列;
將所述第一特征序列和所述第二特征序列相加,得到融合特征序列;
基于所述融合特征序列生成所述目標樂譜對應的目標音頻。
作為本申請的一種可行實施例,所述基于所述融合特征序列生成所述目標樂譜對應的目標音頻,包括:
獲取預先基于訓練樣本樂譜以及訓練樣本音頻訓練得到的聲碼器;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于科大訊飛股份有限公司,未經科大訊飛股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202211567349.4/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:顯示面板和顯示裝置
- 下一篇:一種基于重力作用下的線陣釋放機構





