[發(fā)明專利]語音轉(zhuǎn)換方法、裝置、設(shè)備及存儲介質(zhì)在審
| 申請?zhí)枺?/td> | 201980003287.4 | 申請日: | 2019-12-27 |
| 公開(公告)號: | CN111247585A | 公開(公告)日: | 2020-06-05 |
| 發(fā)明(設(shè)計(jì))人: | 趙之源;黃東延;熊友軍 | 申請(專利權(quán))人: | 深圳市優(yōu)必選科技股份有限公司 |
| 主分類號: | G10L21/013 | 分類號: | G10L21/013;G10L25/18;G10L25/24;G10L25/30;G10L19/16 |
| 代理公司: | 深圳中細(xì)軟知識產(chǎn)權(quán)代理有限公司 44528 | 代理人: | 彭佳偉 |
| 地址: | 518000 廣東省深圳市南山區(qū)*** | 國省代碼: | 廣東;44 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 語音 轉(zhuǎn)換 方法 裝置 設(shè)備 存儲 介質(zhì) | ||
1.一種語音轉(zhuǎn)換方法,其特征在于,所述方法包括:
獲取源音頻數(shù)據(jù);
接收選擇的目標(biāo)說話人編號和源音頻數(shù)據(jù)對應(yīng)的說話人編號;
對所述源音頻數(shù)據(jù)進(jìn)行預(yù)處理,得到與所述源音頻數(shù)據(jù)對應(yīng)的頻譜;
將所述目標(biāo)說話人編號、所述源音頻數(shù)據(jù)對應(yīng)的說話人編號和所述源音頻數(shù)據(jù)對應(yīng)的頻譜作為語音轉(zhuǎn)換模型的輸入,獲取所述語音轉(zhuǎn)換模型輸出的目標(biāo)說話人的頻譜;
通過聲碼器將所述目標(biāo)說話人的頻譜轉(zhuǎn)換為所述目標(biāo)說話人的語音。
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述語音轉(zhuǎn)換模型包括:
仿射矩陣、編碼器和解碼器,所述仿射矩陣用于將輸入的所述目標(biāo)說話人編號和所述源音頻數(shù)據(jù)對應(yīng)的說話人編號編碼為說話人向量,所述編碼器用于根據(jù)所述說話人向量和所述源音頻數(shù)據(jù)對應(yīng)的頻譜得到特征向量,所述解碼器用于根據(jù)所述特征向量和所述說話人向量得到所述目標(biāo)說話人的頻譜。
3.根據(jù)權(quán)利要求2所述的方法,其特征在于,所述語音轉(zhuǎn)換模型的訓(xùn)練步驟如下:
獲取訓(xùn)練樣本集,所述訓(xùn)練樣本集中包括多個(gè)訓(xùn)練樣本,每個(gè)訓(xùn)練樣本包括:訓(xùn)練目標(biāo)說話人編號、訓(xùn)練音頻數(shù)據(jù)對應(yīng)的說話人編號、訓(xùn)練音頻數(shù)據(jù)對應(yīng)的頻譜和訓(xùn)練目標(biāo)說話人的頻譜;
將所述訓(xùn)練說話人編號、所述訓(xùn)練音頻數(shù)據(jù)對應(yīng)的說話人編號和所述訓(xùn)練音頻數(shù)據(jù)對應(yīng)的頻譜作為所述語音轉(zhuǎn)換模型的輸入,將所述訓(xùn)練目標(biāo)說話人的頻譜作為期望的輸出;
根據(jù)所述語音轉(zhuǎn)換模型的實(shí)際輸出和期望輸出的比對結(jié)果更新所述語音轉(zhuǎn)換模型的權(quán)重參數(shù),得到訓(xùn)練好的所述語音轉(zhuǎn)換模型。
4.根據(jù)權(quán)利要求3所述的方法,其特征在于,所述根據(jù)所述語音轉(zhuǎn)換模型的實(shí)際輸出和期望輸出的比對結(jié)果更新所述語音轉(zhuǎn)換模型的權(quán)重參數(shù),得到訓(xùn)練好的所述語音轉(zhuǎn)換模型,包括:
根據(jù)所述語音轉(zhuǎn)換模型的所述實(shí)際輸出和期望輸出的比對差值計(jì)算得到損失值;
當(dāng)所述損失值沒有達(dá)到預(yù)設(shè)的收斂條件時(shí),根據(jù)所述損失值更新所述語音轉(zhuǎn)換模型的權(quán)重參數(shù);
獲取下一個(gè)訓(xùn)練樣本,重新進(jìn)入所述將所述訓(xùn)練說話人編號、所述訓(xùn)練音頻數(shù)據(jù)對應(yīng)的說話人編號和所述訓(xùn)練音頻數(shù)據(jù)對應(yīng)的頻譜作為所述語音轉(zhuǎn)換模型的輸入,將所述訓(xùn)練目標(biāo)說話人的頻譜作為期望的輸出的步驟,直至計(jì)算得到的所述損失值滿足所述預(yù)設(shè)的收斂條件時(shí),停止訓(xùn)練,得到訓(xùn)練好的所述語音轉(zhuǎn)換模型。
5.根據(jù)權(quán)利要求4所述的方法,其特征在于,所述根據(jù)所述語音轉(zhuǎn)換模型的所述實(shí)際輸出和期望輸出的比對差值計(jì)算得到損失值,包括:
計(jì)算所述語音轉(zhuǎn)換模型實(shí)際輸出的頻譜與所述目標(biāo)說話人的頻譜的第一差值;
將所述語音轉(zhuǎn)換模型實(shí)際輸出的頻譜輸入音素識別器,得到預(yù)測的音素信息,并與所述源音頻數(shù)據(jù)對應(yīng)的音素信息對比,計(jì)算得到第二差值;
根據(jù)所述第一差值與所述第二差值,得到所述損失值。
6.根據(jù)權(quán)利要求2所述的方法,其特征在于,所述解碼器的訓(xùn)練過程,包括:
獲取預(yù)設(shè)的訓(xùn)練目標(biāo)頻譜幀和預(yù)設(shè)的訓(xùn)練目標(biāo)說話人的平均頻譜幀;
獲取預(yù)設(shè)概率,根據(jù)所述預(yù)設(shè)概率確定每個(gè)頻譜幀對應(yīng)的參考幀;
當(dāng)所述解碼器輸出頻譜幀對應(yīng)的參考幀為所述訓(xùn)練目標(biāo)頻譜幀時(shí),根據(jù)所述訓(xùn)練目標(biāo)頻譜幀輸出對應(yīng)的頻譜幀;
當(dāng)所述解碼器輸出頻譜幀對應(yīng)的參考幀為所述平均頻譜幀時(shí),根據(jù)所述平均頻譜幀輸出對應(yīng)的頻譜幀。
7.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述對所述源音頻數(shù)據(jù)進(jìn)行預(yù)處理,得到與所述源音頻數(shù)據(jù)對應(yīng)的頻譜,包括:
對所述源音頻數(shù)據(jù)的首尾去掉空白部分、預(yù)加重、短時(shí)傅里葉變換,得到第一頻譜;
將所述第一頻譜通過梅爾濾波器組,得到梅爾頻譜。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于深圳市優(yōu)必選科技股份有限公司,未經(jīng)深圳市優(yōu)必選科技股份有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201980003287.4/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 圖像轉(zhuǎn)換設(shè)備、圖像轉(zhuǎn)換電路及圖像轉(zhuǎn)換方法
- 數(shù)模轉(zhuǎn)換電路及轉(zhuǎn)換方法
- 轉(zhuǎn)換設(shè)備和轉(zhuǎn)換方法
- 占空比轉(zhuǎn)換電路及轉(zhuǎn)換方法
- 通信轉(zhuǎn)換方法、轉(zhuǎn)換裝置及轉(zhuǎn)換系統(tǒng)
- 模數(shù)轉(zhuǎn)換和模數(shù)轉(zhuǎn)換方法
- 轉(zhuǎn)換模塊以及轉(zhuǎn)換電路
- 熱電轉(zhuǎn)換材料、熱電轉(zhuǎn)換元件和熱電轉(zhuǎn)換模塊
- 熱電轉(zhuǎn)換材料、熱電轉(zhuǎn)換元件及熱電轉(zhuǎn)換模塊
- 熱電轉(zhuǎn)換材料、熱電轉(zhuǎn)換元件及熱電轉(zhuǎn)換模塊





