[發明專利]一種音頻特征信息生成方法、裝置、設備和存儲介質在審

申請號：	202211085774.X	申請日：	2022-09-06
公開（公告）號：	CN115440186A	公開（公告）日：	2022-12-06
發明（設計）人：	郁祖達;孫見青;梁家恩	申請（專利權）人：	云知聲智能科技股份有限公司
主分類號：	G10L13/02	分類號：	G10L13/02;G10L19/04;G10L25/12;G10L25/27
代理公司：	暫無信息	代理人：	暫無信息
地址：	100096 北京市海***	國省代碼：	北京;11
權利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關鍵詞：	一種音頻特征信息生成方法裝置設備存儲介質
鉆瓜網技術展會專利詞庫專利權人專利榜在售專利公布日期熱門專利

【說明書】：

本發明公開了一種音頻特征信息生成方法、裝置、設備和存儲介質。該方法包括接收待語音合成的文本信息以及被選定的聲音類型；基于文本信息預測聲學特征信息；獲取聲音類型對應的標準化參數；利用標準化參數，對聲學特征信息執行還原處理；根據還原處理后的聲學特征信息，生成聲音類型對應的音頻特征信息；音頻特征信息用于生成聲音類型對應的語音信號。在本發明中，多種聲音共享同一組預測器來預測聲學特征信息，預測器輸出的為規整后的聲學特征，通過被選定的聲音對應的標準化參數，就可以將聲學特征反規整到原空間，使解碼器基于反規整的聲學特征，生成被選定的聲音類型對應的音頻特征信息，從而使語音合成模型具有預測多種聲音的功能。

技術領域

本發明涉及音頻處理技術領域，尤其涉及一種音頻特征信息生成方法、裝置、設備和存儲介質。

背景技術

在一些應用場景中，需要將文本信息轉換為語音信號，使用戶無需觀看文本信息，就可以聽到文本信息的內容。例如：語音助手應用就具有將文本轉換為語音的功能。

為了解決如何將文本信息轉換為語音信號的問題，TTS(Text To Speech，語音合成)模型應運而生。TTS模型經過訓練，可以將文本信息轉換為語音信號。進一步地，在Fastspeech類的TTS模型中包括聲學模型，該聲學模型包特征增加器，特征增加器中的預測器用于預測語音的時長、音高、能量等聲學特征，用以提升語音合成質量。但是，目前的預測器只能預測一種聲音(一個發音人)，無法預測多種聲音，從而導致語音合成模型無法合成多種聲音。這是因為在訓練模型時，是將一種聲音的聲學特征作為樣本，輸出該聲音對應的聲學特征，換而言之，預測器是直接將文本信息映射到該聲音的聲學特征的實際數據上，而該實際數據只能表征一種聲音。如果要訓練多種聲音，會因為不同聲音的時長、音高和能量都不同，聲學特征的特征值范圍也不同，導致多種聲音無法共享預測器。

發明內容

本發明的主要目的在于提出一種音頻特征信息生成方法、裝置、設備和存儲介質，旨在解決預測器只能預測一種聲音，無法預測多種聲音，導致語音合成模型無法合成多種聲音的問題。

為實現上述技術問題，本發明是通過以下技術方案來實現的：

本發明實施例提供了一種音頻特征信息生成方法，在語音合成模型執行的步驟，包括：接收待語音合成的文本信息以及被選定的聲音類型；基于所述文本信息預測聲學特征信息；獲取所述聲音類型對應的標準化參數；利用所述標準化參數，對所述聲學特征信息執行還原處理；根據還原處理后的所述聲學特征信息，生成所述聲音類型對應的音頻特征信息；其中，所述音頻特征信息用于生成所述聲音類型對應的語音信號。

其中，所述聲學特征信息的數量為多個；所述聲音類型對應的標準化參數的數量為多個；其中，每個標準化參數對應一個聲學特征信息；所述利用所述標準化參數，對所述聲學特征信息執行還原處理，包括：針對每個聲學特征信息，利用與所述聲學特征信息對應的標準化參數，對所述聲學特征信息執行還原處理。

其中，所述標準化參數包括：均值和標準差。

其中，在所述接收待語音合成的文本信息以及被選定的聲音類型之前，所述方法還包括：獲取用于訓練所述語音合成模型的樣本集合；其中，在所述樣本集合中包括每個聲音類型對應的多個樣本語音信號；針對每個聲音類型，根據所述聲音類型對應的多個樣本語音信號，確定并記錄每個聲學特征對應的均值和標準差。

其中，所述基于所述文本信息預測聲學特征信息，包括：針對所述文本信息執行預處理操作；針對預處理后的所述文本信息執行編碼操作，得到所述文本信息對應的文本隱向量；根據所述文本信息對應的文本隱向量，預測聲學特征信息。

其中，所述根據還原處理后的所述聲學特征信息，生成音頻特征信息，包括：利用預設的映射方法，將還原處理后的所述聲學特征信息映射到與所述文本隱向量具有相同維度的空間中，得到聲學隱向量；將所述聲學隱向量和所述文本隱向量進行疊加，得到疊加向量；對所述疊加向量執行解碼操作，生成所述聲音類型對應的音頻特征信息。

下載完整專利技術內容需要扣除積分，VIP會員可以免費下載。

免登錄下載普通用戶下載升級VIP會員，免費下載

該專利技術資料僅供研究查看技術是否侵權等信息，商用須獲得專利權人授權。該專利全部權利屬于云知聲智能科技股份有限公司，未經云知聲智能科技股份有限公司許可，擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作，請聯系【客服】

本文鏈接：http://www.szxzyx.cn/pat/books/202211085774.X/2.html，轉載請聲明來源鉆瓜專利網。

上一篇：藍牙同步方法、系統、藍牙設備及計算機可讀取存儲介質
下一篇：分頁對照方法、裝置及存儲介質

同類專利

專利分類

G 物理

G10 樂器；聲學
G10L 語音分析或合成；語音識別；音頻分析或處理
G10L13-00 語音合成；文本-語音合成系統
G10L13-02 .產生合成語音的方法；語音合成設備
G10L13-06 .語音合成設備中使用的基本語音單位；級聯規則
G10L13-08 .文本分析或文本以外的語音合成參數的產生，例如語義圖翻譯為音素、韻律產生、重音或聲調測定
G10L13-04 ..語音合成系統的零部件，例如合成設備結構或存儲器管理

免登錄下載普通用戶下載升級VIP會員，免費下載

專利文獻下載

說明：

1、專利原文基于中國國家知識產權局專利說明書；

2、支持發明專利、實用新型專利、外觀設計專利（升級中）；

3、專利數據每周兩次同步更新，支持Adobe PDF格式；

4、內容包括專利技術的結構示意圖、流程工藝圖或技術構造圖；

5、已全新升級為極速版,下載速度顯著提升！歡迎使用！

請您登陸后，進行下載，點擊【登陸】【注冊】