[發明專利]一種音色轉換方法和裝置在審

申請號：	202010889099.0	申請日：	2020-08-28
公開（公告）號：	CN112216293A	公開（公告）日：	2021-01-12
發明（設計）人：	王愈;李健;陳明;武衛東	申請（專利權）人：	北京捷通華聲科技股份有限公司
主分類號：	G10L21/007	分類號：	G10L21/007;G10L25/30;G10L25/24
代理公司：	北京潤澤恒知識產權代理有限公司 11319	代理人：	莎日娜
地址：	100193 北京市海淀區東北***	國省代碼：	北京;11
權利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關鍵詞：	一種音色轉換方法裝置
鉆瓜網技術展會專利詞庫專利權人專利榜在售專利公布日期熱門專利

【權利要求書】：

1.一種音色轉換方法，其特征在于，包括：

獲取待轉換語音；

提取所述待轉換語音的多種特征參數；

組合所述多種特征參數得到特征向量；

對所述特征向量進行音色轉換得到目標特征參數；

采用所述目標特征參數進行發聲處理得到目標語音。

2.根據權利要求1所述的方法，其特征在于，所述特征參數包括第一譜參數，基頻參數和非周期性分量參數；所述組合所述多種特征參數得到特征向量，包括：

提取所述第一譜參數的聲學特征得到第二譜參數，所述第二譜參數對應于所述待轉換語音的發聲內容；

組合所述第二譜參數、基頻參數和非周期性分量參數，得到特征向量。

3.根據權利要求2所述的方法，其特征在于，所述對所述特征向量進行音色轉換得到目標特征參數，包括：

對所述特征向量進行音色轉換，得到目標譜參數，目標基頻參數和目標非周期性成分參數。

4.根據權利要求3所述的方法，其特征在于，所述采用所述目標特征參數進行發聲處理，得到目標語音，包括：

將所述目標譜參數，目標基頻參數和目標非周期性分量參數輸入至預設聲碼器進行發聲處理，得到目標語音。

5.根據權利要求1所述的方法，其特征在于，所述對所述特征向量進行音色轉換得到目標特征參數，包括：

采用預設U型的音色轉換模型，對所述特征向量進行音色轉換得到目標特征參數。

6.根據權利要求5所述的方法，其特征在于，所述預設U型結構的音色轉換模型包含池化層和反卷積層，其中，所述池化層的運算核包含二元上下文預測模型，所述反卷積層的運算核包含二元上下文預測模型。

7.根據權利要求6所述的方法，其特征在于，采用預設U型結構的音色轉換模型，對所述特征向量進行音色轉換得到目標特征參數，包括：

在所述預設的U型結構的音色轉換模型的池化層中，采用二元上下文預測模型對所述特征向量進行降采樣處理，得到第一中間向量；

在所述預設的U型結構的音色轉換模型的反卷積層中，采用所述二元上下文預測模型對所述第一中間向量進行升采樣處理，得到第二中間向量；

對所述第二中間向量進行轉換，得到目標特征參數。

8.根據權利要求7所述的方法，其特征在于，所述在所述預設的U型結構的音色轉換模型的池化層中，采用二元上下文預測模型對所述特征向量進行降采樣處理，得到第一中間向量，包括：

在所述預設的U型結構的音色轉換模型的池化層中，采用二元上下文預測模型，根據兩個相鄰時刻的所述特征向量預測一個時刻的向量，得到第一中間向量。

9.根據權利要求7所述的方法，其特征在于，所述在所述預設的U型結構的音色轉換模型的反卷積層中，采用所述二元上下文預測模型對所述第一中間向量進行升采樣處理，得到第二中間向量，包括：

在所述預設的U型結構的音色轉換模型的反卷積層中，采用所述二元上下文預測模型，根據兩個相鄰時刻的所述第一中間向量預測一個時刻的向量，得到第二中間向量。

10.根據權利要求6所述的方法，其特征在于，所述池化層和反卷積層的權值共享。

11.一種音色轉換裝置，其特征在于，包括：

語言獲取模塊，用于獲取待轉換語音；

特征參數提取模塊，用于提取所述待轉換語音的多種特征參數；

特征參數組合模塊，用于組合所述多種特征參數得到特征向量；

音色轉換模塊，用于對所述特征向量進行音色轉換得到目標特征參數；

發聲處理模塊，用于采用所述目標特征參數進行發聲處理得到目標語音。

下載完整專利技術內容需要扣除積分，VIP會員可以免費下載。

免登錄下載普通用戶下載升級VIP會員，免費下載

該專利技術資料僅供研究查看技術是否侵權等信息，商用須獲得專利權人授權。該專利全部權利屬于北京捷通華聲科技股份有限公司，未經北京捷通華聲科技股份有限公司許可，擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作，請聯系【客服】

本文鏈接：http://www.szxzyx.cn/pat/books/202010889099.0/1.html，轉載請聲明來源鉆瓜專利網。

上一篇：信息采集方法、裝置及系統
下一篇：一種無線控制設備控制方法以及相關裝置

同類專利

專利分類

G 物理

G10 樂器；聲學
G10L 語音分析或合成；語音識別；音頻分析或處理
G10L21-00 為了改變語音信號的質量或其可識度而處理語音信號，以產生另一種可聽的或非可聽的信號，例如視覺信號或觸覺信號
G10L21-02 .語音增強，例如降低噪聲或消除回聲
G10L21-04 .時間壓縮或擴展
G10L21-06 .將語音轉換成非可聽表達形式，例如語音可視化、觸覺輔助的語音處理

免登錄下載普通用戶下載升級VIP會員，免費下載

專利文獻下載

說明：

1、專利原文基于中國國家知識產權局專利說明書；

2、支持發明專利、實用新型專利、外觀設計專利（升級中）；

3、專利數據每周兩次同步更新，支持Adobe PDF格式；

4、內容包括專利技術的結構示意圖、流程工藝圖或技術構造圖；

5、已全新升級為極速版,下載速度顯著提升！歡迎使用！

請您登陸后，進行下載，點擊【登陸】【注冊】