[發明專利]一種變聲方法、裝置、設備和存儲介質在審

申請號：	202110602131.7	申請日：	2021-05-31
公開（公告）號：	CN113345411A	公開（公告）日：	2021-09-03
發明（設計）人：	徐波	申請（專利權）人：	多益網絡有限公司;廣州多益網絡股份有限公司;廣東利為網絡科技有限公司
主分類號：	G10L13/033	分類號：	G10L13/033;G10L25/30;G10L25/63
代理公司：	北京集佳知識產權代理有限公司 11227	代理人：	劉曉娟
地址：	510000 廣東省廣州***	國省代碼：	廣東;44
權利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關鍵詞：	一種變聲方法裝置設備存儲介質
鉆瓜網技術展會專利詞庫專利權人專利榜在售專利公布日期熱門專利

【說明書】：

本申請公開了一種變聲方法、裝置、設備和存儲介質，方法包括：響應于用戶的變聲請求，實時采集用戶的原始語音數據，變聲請求攜帶有目標聲學特征的標識；根據目標說話人的標識從預置數據庫中獲取目標聲學特征；實時提取原始語音數據的情緒特征；將目標聲學特征和情緒特征進行特征融合后，與原始語音數據一起輸入到預置變聲模型進行變聲處理，得到變聲語音數據，改善了現有技術存在的變聲效果單一、生硬，使得用戶體驗性較差的技術問題。

技術領域

本申請涉及語音處理技術領域，尤其涉及一種變聲方法、裝置、設備和存儲介質。

背景技術

變聲技術是指保留語音數據的語音內容，但改變說話人聲音特征的技術，使得說話人的聲音聽起來像另一個人的聲音。現有技術的變聲效果比較單一、生硬，使得用戶體驗性較差。

發明內容

本申請提供了一種變聲方法、裝置、設備和存儲介質，用于改善現有技術存在的變聲效果單一、生硬，使得用戶體驗性較差的技術問題。

有鑒于此，本申請第一方面提供了一種變聲方法方法，包括：

響應于用戶的變聲請求，實時采集所述用戶的原始語音數據，所述變聲請求攜帶有目標聲學特征的標識；

根據所述目標說話人的標識從預置數據庫中獲取所述目標聲學特征；

實時提取所述原始語音數據的情緒特征；

將所述目標聲學特征和所述情緒特征進行特征融合后，與所述原始語音數據一起輸入到預置變聲模型進行變聲處理，得到變聲語音數據。

可選的，所述將所述目標聲學特征和所述情緒特征進行特征融合后，與所述原始語音數據一起輸入到預置變聲模型進行變聲處理，得到變聲語音數據，之前還包括：

根據所述目標聲學特征的方差對所述目標聲學特征進行隨機初始化處理，得到初始化后的目標聲學特征。

可選的，所述預置數據庫的獲取過程為：

獲取若干說話人的語音數據；

提取所述語音數據的聲學特征；

給所述聲學特征配置標識后，根據所述標識和所述聲學特征的對應關系存儲所述聲學特征，得到所述預置數據庫。

可選的，所述給所述聲學特征配置標識，根據所述聲學特征的標識和所述聲學特征的對應關系生成所述預置數據庫，之前還包括：

根據所述說話人的相關信息對所述聲學特征進行聚類，得到若干個簇，所述相關信息包括性別和/或年齡；

根據所述簇的中心隨機生成新聲學特征；

相應的，所述給所述聲學特征配置標識后，根據所述標識和所述聲學特征的對應關系存儲所述聲學特征，得到所述預置數據庫，包括：

給所述聲學特征和所述新聲學特征配置標識后，根據所述標識和所述聲學特征、所述新聲學特征的對應關系存儲所述聲學特征和所述新聲學特征，得到所述預置數據庫。

可選的，所述預置變聲模型為訓練好的StarGAN網絡。

本申請第二方面提供了一種變聲裝置，包括：

采集單元，用于響應于用戶的變聲請求，實時采集所述用戶的原始語音數據，所述變聲請求攜帶有目標聲學特征的標識；

獲取單元，用于根據所述目標說話人的標識從預置數據庫中獲取所述目標聲學特征；

提取單元，用于實時提取所述原始語音數據的情緒特征；

輸入單元，用于將所述目標聲學特征和所述情緒特征進行特征融合后，與所述原始語音數據一起輸入到預置變聲模型進行變聲處理，得到變聲語音數據。

下載完整專利技術內容需要扣除積分，VIP會員可以免費下載。

免登錄下載普通用戶下載升級VIP會員，免費下載

該專利技術資料僅供研究查看技術是否侵權等信息，商用須獲得專利權人授權。該專利全部權利屬于多益網絡有限公司;廣州多益網絡股份有限公司;廣東利為網絡科技有限公司，未經多益網絡有限公司;廣州多益網絡股份有限公司;廣東利為網絡科技有限公司許可，擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作，請聯系【客服】

本文鏈接：http://www.szxzyx.cn/pat/books/202110602131.7/2.html，轉載請聲明來源鉆瓜專利網。

上一篇：一種安全可靠的鐵水預處理自動扒渣方法和系統
下一篇：一種汽車零部件用包裝設備

同類專利

專利分類

G 物理

G10 樂器；聲學
G10L 語音分析或合成；語音識別；音頻分析或處理
G10L13-00 語音合成；文本-語音合成系統
G10L13-02 .產生合成語音的方法；語音合成設備
G10L13-06 .語音合成設備中使用的基本語音單位；級聯規則
G10L13-08 .文本分析或文本以外的語音合成參數的產生，例如語義圖翻譯為音素、韻律產生、重音或聲調測定
G10L13-04 ..語音合成系統的零部件，例如合成設備結構或存儲器管理

免登錄下載普通用戶下載升級VIP會員，免費下載

專利文獻下載

說明：

1、專利原文基于中國國家知識產權局專利說明書；

2、支持發明專利、實用新型專利、外觀設計專利（升級中）；

3、專利數據每周兩次同步更新，支持Adobe PDF格式；

4、內容包括專利技術的結構示意圖、流程工藝圖或技術構造圖；

5、已全新升級為極速版,下載速度顯著提升！歡迎使用！

請您登陸后，進行下載，點擊【登陸】【注冊】