[發明專利]一種語音轉換方法、裝置、設備及介質在審
| 申請號: | 202111138586.4 | 申請日: | 2021-09-27 |
| 公開(公告)號: | CN113889130A | 公開(公告)日: | 2022-01-04 |
| 發明(設計)人: | 張旭龍;王健宗 | 申請(專利權)人: | 平安科技(深圳)有限公司 |
| 主分類號: | G10L21/013 | 分類號: | G10L21/013;G10L25/03 |
| 代理公司: | 廣州三環專利商標代理有限公司 44202 | 代理人: | 熊永強 |
| 地址: | 518000 廣東省深圳市福田區福*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 語音 轉換 方法 裝置 設備 介質 | ||
本申請涉及人工智能技術,提供一種語音轉換方法、裝置、設備及介質。其中的方法包括:獲取來自源說話人的源語音信息;通過訓練后的語音轉換模型對源語音信息進行內容特征提取,得到源語音信息的內容特征;對源語音信息進行說話人特征提取,得到源說話人的說話人特征;對內容特征、源說話人的說話人特征和目標基頻信息進行處理,得到轉換后的目標語音信息;輸出目標語音信息,可提高語音轉換后的目標語音的自然度和韻律連貫特性。
技術領域
本申請涉及人工智能技術領域,尤其涉及一種語音轉換方法、裝置、設備及介質。
背景技術
語音轉換指的是:將源說話人說話的音色轉化為另一個人說話的音色,同時保持源說話人說話的語義內容不變。目前實現語音轉換的神經網絡模型有很多,例如AutoVC模型等,AutoVC模型是基于音頻編碼損失的零樣本(zero-shot)音頻轉換,多對多的非平行音頻轉換框架。但是經研究發現,通過AutoVC進行語音轉換得到的語音還是有很明顯的機器人說話的感覺,因此,如何提高語音轉換后的語音的自然度是目前亟需解決的技術問題。
發明內容
本申請實施例提供了一種語音轉換方法、裝置、設備及介質,可提高語音轉換后的目標語音的自然度和韻律連貫特性。
一方面,本申請實施例提供一種語音轉換方法,該方法包括:
獲取來自源說話人的源語音信息;
通過訓練后的語音轉換模型對源語音信息進行內容特征提取,得到源語音信息的內容特征;
對源語音信息進行說話人特征提取,得到源說話人的說話人特征;
對內容特征、源說話人的說話人特征和目標基頻信息進行處理,得到轉換后的目標語音信息;
輸出目標語音信息。
在一個實施例中,訓練后的語音轉換模型包括條件自編碼器,條件自編碼器包括編碼器和解碼器;
對內容特征、源說話人的說話人特征和目標基頻信息進行處理,得到轉換后的目標語音信息的具體實施過程為:
通過編碼器將源說話人的說話人特征和內容特征進行拼接,得到第一特征,并對第一特征進行編碼,得到編碼后的特征;
將編碼后的特征與目標基頻信息進行拼接,得到第二特征;
通過解碼器對第二特征進行解碼,得到目標語音信息。
在一個實施例中,對所述內容特征、源說話人的說話人特征和目標基頻信息進行處理,得到轉換后的目標語音信息之前,還可以實施以下過程:
顯示風格設置界面,風格設置界面包括多個風格選項;
響應于對多個風格選項中目標風格選項的選擇操作,確定目標風格選項,目標風格選項為多個風格選項中的任一風格選項;
根據風格標簽和基頻信息的對應關系,在多個基頻信息中查找目標風格選項指示的風格標簽對應的基頻信息,并將查找到的基頻信息作為目標基頻信息。
在一個實施例中,對所述內容特征、源說話人的說話人特征和目標基頻信息進行處理,得到轉換后的目標語音信息之前,還可以實施以下過程:
對源語音信息進行音色分析,確定源說話人的性別;
根據性別和基頻信息的對應關系,在多個基頻信息中查找確定的性別對應的基頻信息,并將查找到的基頻信息作為目標基頻信息。
在一個實施例中,對所述內容特征、源說話人的說話人特征和目標基頻信息進行處理,得到轉換后的目標語音信息之前,還可以實施以下過程:
對源語音信息進行基頻信息提取,得到源說話人的基頻信息;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于平安科技(深圳)有限公司,未經平安科技(深圳)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202111138586.4/2.html,轉載請聲明來源鉆瓜專利網。





