[發明專利]一種語音轉換方法、裝置、設備及介質在審

申請號：	202111138586.4	申請日：	2021-09-27
公開（公告）號：	CN113889130A	公開（公告）日：	2022-01-04
發明（設計）人：	張旭龍;王健宗	申請（專利權）人：	平安科技（深圳）有限公司
主分類號：	G10L21/013	分類號：	G10L21/013;G10L25/03
代理公司：	廣州三環專利商標代理有限公司 44202	代理人：	熊永強
地址：	518000 廣東省深圳市福田區福***	國省代碼：	廣東;44
權利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關鍵詞：	一種語音轉換方法裝置設備介質
鉆瓜網技術展會專利詞庫專利權人專利榜在售專利公布日期熱門專利

【說明書】：

本申請涉及人工智能技術，提供一種語音轉換方法、裝置、設備及介質。其中的方法包括：獲取來自源說話人的源語音信息；通過訓練后的語音轉換模型對源語音信息進行內容特征提取，得到源語音信息的內容特征；對源語音信息進行說話人特征提取，得到源說話人的說話人特征；對內容特征、源說話人的說話人特征和目標基頻信息進行處理，得到轉換后的目標語音信息；輸出目標語音信息，可提高語音轉換后的目標語音的自然度和韻律連貫特性。

技術領域

本申請涉及人工智能技術領域，尤其涉及一種語音轉換方法、裝置、設備及介質。

背景技術

語音轉換指的是：將源說話人說話的音色轉化為另一個人說話的音色，同時保持源說話人說話的語義內容不變。目前實現語音轉換的神經網絡模型有很多，例如AutoVC模型等，AutoVC模型是基于音頻編碼損失的零樣本(zero-shot)音頻轉換，多對多的非平行音頻轉換框架。但是經研究發現，通過AutoVC進行語音轉換得到的語音還是有很明顯的機器人說話的感覺，因此，如何提高語音轉換后的語音的自然度是目前亟需解決的技術問題。

發明內容

本申請實施例提供了一種語音轉換方法、裝置、設備及介質，可提高語音轉換后的目標語音的自然度和韻律連貫特性。

一方面，本申請實施例提供一種語音轉換方法，該方法包括：

獲取來自源說話人的源語音信息；

通過訓練后的語音轉換模型對源語音信息進行內容特征提取，得到源語音信息的內容特征；

對源語音信息進行說話人特征提取，得到源說話人的說話人特征；

對內容特征、源說話人的說話人特征和目標基頻信息進行處理，得到轉換后的目標語音信息；

輸出目標語音信息。

在一個實施例中，訓練后的語音轉換模型包括條件自編碼器，條件自編碼器包括編碼器和解碼器；

對內容特征、源說話人的說話人特征和目標基頻信息進行處理，得到轉換后的目標語音信息的具體實施過程為：

通過編碼器將源說話人的說話人特征和內容特征進行拼接，得到第一特征，并對第一特征進行編碼，得到編碼后的特征；

將編碼后的特征與目標基頻信息進行拼接，得到第二特征；