[發明專利]一種音頻特征信息生成方法、裝置、設備和存儲介質在審
| 申請號: | 202211085774.X | 申請日: | 2022-09-06 |
| 公開(公告)號: | CN115440186A | 公開(公告)日: | 2022-12-06 |
| 發明(設計)人: | 郁祖達;孫見青;梁家恩 | 申請(專利權)人: | 云知聲智能科技股份有限公司 |
| 主分類號: | G10L13/02 | 分類號: | G10L13/02;G10L19/04;G10L25/12;G10L25/27 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 100096 北京市海*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 音頻 特征 信息 生成 方法 裝置 設備 存儲 介質 | ||
本發明公開了一種音頻特征信息生成方法、裝置、設備和存儲介質。該方法包括接收待語音合成的文本信息以及被選定的聲音類型;基于文本信息預測聲學特征信息;獲取聲音類型對應的標準化參數;利用標準化參數,對聲學特征信息執行還原處理;根據還原處理后的聲學特征信息,生成聲音類型對應的音頻特征信息;音頻特征信息用于生成聲音類型對應的語音信號。在本發明中,多種聲音共享同一組預測器來預測聲學特征信息,預測器輸出的為規整后的聲學特征,通過被選定的聲音對應的標準化參數,就可以將聲學特征反規整到原空間,使解碼器基于反規整的聲學特征,生成被選定的聲音類型對應的音頻特征信息,從而使語音合成模型具有預測多種聲音的功能。
技術領域
本發明涉及音頻處理技術領域,尤其涉及一種音頻特征信息生成方法、裝置、設備和存儲介質。
背景技術
在一些應用場景中,需要將文本信息轉換為語音信號,使用戶無需觀看文本信息,就可以聽到文本信息的內容。例如:語音助手應用就具有將文本轉換為語音的功能。
為了解決如何將文本信息轉換為語音信號的問題,TTS(Text To Speech,語音合成)模型應運而生。TTS模型經過訓練,可以將文本信息轉換為語音信號。進一步地,在Fastspeech類的TTS模型中包括聲學模型,該聲學模型包特征增加器,特征增加器中的預測器用于預測語音的時長、音高、能量等聲學特征,用以提升語音合成質量。但是,目前的預測器只能預測一種聲音(一個發音人),無法預測多種聲音,從而導致語音合成模型無法合成多種聲音。這是因為在訓練模型時,是將一種聲音的聲學特征作為樣本,輸出該聲音對應的聲學特征,換而言之,預測器是直接將文本信息映射到該聲音的聲學特征的實際數據上,而該實際數據只能表征一種聲音。如果要訓練多種聲音,會因為不同聲音的時長、音高和能量都不同,聲學特征的特征值范圍也不同,導致多種聲音無法共享預測器。
發明內容
本發明的主要目的在于提出一種音頻特征信息生成方法、裝置、設備和存儲介質,旨在解決預測器只能預測一種聲音,無法預測多種聲音,導致語音合成模型無法合成多種聲音的問題。
為實現上述技術問題,本發明是通過以下技術方案來實現的:
本發明實施例提供了一種音頻特征信息生成方法,在語音合成模型執行的步驟,包括:接收待語音合成的文本信息以及被選定的聲音類型;基于所述文本信息預測聲學特征信息;獲取所述聲音類型對應的標準化參數;利用所述標準化參數,對所述聲學特征信息執行還原處理;根據還原處理后的所述聲學特征信息,生成所述聲音類型對應的音頻特征信息;其中,所述音頻特征信息用于生成所述聲音類型對應的語音信號。
其中,所述聲學特征信息的數量為多個;所述聲音類型對應的標準化參數的數量為多個;其中,每個標準化參數對應一個聲學特征信息;所述利用所述標準化參數,對所述聲學特征信息執行還原處理,包括:針對每個聲學特征信息,利用與所述聲學特征信息對應的標準化參數,對所述聲學特征信息執行還原處理。
其中,所述標準化參數包括:均值和標準差。
其中,在所述接收待語音合成的文本信息以及被選定的聲音類型之前,所述方法還包括:獲取用于訓練所述語音合成模型的樣本集合;其中,在所述樣本集合中包括每個聲音類型對應的多個樣本語音信號;針對每個聲音類型,根據所述聲音類型對應的多個樣本語音信號,確定并記錄每個聲學特征對應的均值和標準差。
其中,所述基于所述文本信息預測聲學特征信息,包括:針對所述文本信息執行預處理操作;針對預處理后的所述文本信息執行編碼操作,得到所述文本信息對應的文本隱向量;根據所述文本信息對應的文本隱向量,預測聲學特征信息。
其中,所述根據還原處理后的所述聲學特征信息,生成音頻特征信息,包括:利用預設的映射方法,將還原處理后的所述聲學特征信息映射到與所述文本隱向量具有相同維度的空間中,得到聲學隱向量;將所述聲學隱向量和所述文本隱向量進行疊加,得到疊加向量;對所述疊加向量執行解碼操作,生成所述聲音類型對應的音頻特征信息。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于云知聲智能科技股份有限公司,未經云知聲智能科技股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202211085774.X/2.html,轉載請聲明來源鉆瓜專利網。
- 信息記錄介質、信息記錄方法、信息記錄設備、信息再現方法和信息再現設備
- 信息記錄裝置、信息記錄方法、信息記錄介質、信息復制裝置和信息復制方法
- 信息記錄裝置、信息再現裝置、信息記錄方法、信息再現方法、信息記錄程序、信息再現程序、以及信息記錄介質
- 信息記錄裝置、信息再現裝置、信息記錄方法、信息再現方法、信息記錄程序、信息再現程序、以及信息記錄介質
- 信息記錄設備、信息重放設備、信息記錄方法、信息重放方法、以及信息記錄介質
- 信息存儲介質、信息記錄方法、信息重放方法、信息記錄設備、以及信息重放設備
- 信息存儲介質、信息記錄方法、信息回放方法、信息記錄設備和信息回放設備
- 信息記錄介質、信息記錄方法、信息記錄裝置、信息再現方法和信息再現裝置
- 信息終端,信息終端的信息呈現方法和信息呈現程序
- 信息創建、信息發送方法及信息創建、信息發送裝置





