[發(fā)明專利]一種從源說話人到目標(biāo)說話人的聲音轉(zhuǎn)換方法及裝置在審
| 申請?zhí)枺?/td> | 202010543805.6 | 申請日: | 2020-06-15 |
| 公開(公告)號: | CN113808595A | 公開(公告)日: | 2021-12-17 |
| 發(fā)明(設(shè)計)人: | 顏蔚 | 申請(專利權(quán))人: | 顏蔚 |
| 主分類號: | G10L17/02 | 分類號: | G10L17/02;G10L17/04;G10L17/18;G10L17/14;G10L25/93 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 224600 江蘇省鹽城市響*** | 國省代碼: | 江蘇;32 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 說話 目標(biāo) 聲音 轉(zhuǎn)換 方法 裝置 | ||
本申請公開了一種源說話人到目標(biāo)說話人的聲音轉(zhuǎn)換方法及裝置,該方法包括:在獲取源說話人或目標(biāo)說話人的語音數(shù)據(jù)后,提取每一語音幀中的濁音所對應(yīng)的內(nèi)容特征數(shù)據(jù)與聲學(xué)特征數(shù)據(jù),存儲為說話人的一個特征向量,根據(jù)濁音的內(nèi)容特征數(shù)據(jù)判斷濁音內(nèi)容,按照濁音內(nèi)容和說話人類型將所有特征向量分類存儲,并利用分類存儲后的特征向量得到基于不同濁音的源說話人到目標(biāo)說話人的聲學(xué)特征轉(zhuǎn)換參數(shù),然后,接收待轉(zhuǎn)換語音數(shù)據(jù),判斷每一幀待轉(zhuǎn)換語音中的濁音內(nèi)容,選取相應(yīng)的聲學(xué)轉(zhuǎn)換參數(shù)對待轉(zhuǎn)換的語音幀進行多線程并行的語音轉(zhuǎn)換。利用本申請實施例,可以細化濁音的區(qū)分并簡化聲音轉(zhuǎn)換的準(zhǔn)備工作,令使用者可以在較短時間內(nèi)得到品質(zhì)較高的轉(zhuǎn)換語音。
技術(shù)領(lǐng)域
本申請涉及語音信號處理技術(shù)領(lǐng)域,具體涉及一種從源說話人到目標(biāo)說話人的聲音轉(zhuǎn)換方法及裝置。
背景技術(shù)
在日常生活的交流中,我們可以通過一個人的聲音判斷出這個人是否是我們熟悉的人,這是因為每個人的聲音往往是獨一無二的,很難找到擁有相同音色的兩個人。源說話人到目標(biāo)說話人聲音轉(zhuǎn)換技術(shù)可以對源說話人的語音數(shù)據(jù)進行處理轉(zhuǎn)換,使轉(zhuǎn)換后的語音具有目標(biāo)說話人的音色特征,而語義內(nèi)容保持不變。
這種技術(shù)擁有廣泛的應(yīng)用前景,例如用于通信安全領(lǐng)域,保證通話的私密性。也可用于舞臺表演等實時表演時增加效果,或者解決配音行業(yè)的音源不足等問題。
但是,現(xiàn)有的語音轉(zhuǎn)換技術(shù)要想得到理想的效果,在獲取所需要的語音數(shù)據(jù)后,往往還需要較長時間的訓(xùn)練與轉(zhuǎn)換,使得語音轉(zhuǎn)換的實時性效果較差。
發(fā)明內(nèi)容
本申請旨在提供一種源說話人到目標(biāo)說話人的聲音轉(zhuǎn)換方法及裝置,具體基于語音轉(zhuǎn)換時根據(jù)濁音類型的不同進行多線程并行的聲學(xué)特征轉(zhuǎn)換,使得可以在較短時間內(nèi)獲得精度較高的轉(zhuǎn)換語音。
本申請?zhí)峁┮环N源說話人到目標(biāo)說話人的聲音轉(zhuǎn)換方法,包括:
接收源說話人語音數(shù)據(jù),并進行分幀預(yù)處理;
從所述源說話人語音數(shù)據(jù)中提取所需特征數(shù)據(jù),并輸出為基于不同語音幀中濁音的源說話人特征向量;
接收目標(biāo)說話人語音數(shù)據(jù),并進行分幀預(yù)處理;
從所述目標(biāo)說話人語音數(shù)據(jù)提取所需特征數(shù)據(jù),并輸出為基于不同語音幀中濁音的目標(biāo)說話人特征向量;
將所述源說話人特征向量與目標(biāo)說話人特征向量按照其濁音類型進行分類存儲;
利用分類存儲后的源說話人和目標(biāo)說話人特征向量進行訓(xùn)練,得到基于不同濁音的源說話人到目標(biāo)說話人的聲學(xué)特征映射參數(shù);
接收源說話人待轉(zhuǎn)換語音數(shù)據(jù),并進行分幀處理;
將所有濁音的映射參數(shù)輸入語音轉(zhuǎn)換模型,按照待轉(zhuǎn)換語音中不同幀包含的濁音類型進行語音轉(zhuǎn)換,得到轉(zhuǎn)換后的目標(biāo)語音數(shù)據(jù)。
優(yōu)選地,所述從所述源說話人語音數(shù)據(jù)中提取所需特征數(shù)據(jù),并輸出為基于不同語音幀中濁音的源說話人特征向量,包括:
利用預(yù)先構(gòu)建的內(nèi)容特征提取模型與聲學(xué)特征提取模型構(gòu)建特征提取網(wǎng)絡(luò);
提取源說話人語音數(shù)據(jù)不同幀中的濁音的內(nèi)容特征數(shù)據(jù)與聲學(xué)特征數(shù)據(jù);
將同一語音幀中的濁音對應(yīng)的內(nèi)容特征與聲學(xué)特征作為兩個元素存儲為一個源說話人特征向量。
優(yōu)選地,所述接收目標(biāo)說話人語音數(shù)據(jù),包括:
向用戶提供兩種選擇,可使用已有的目標(biāo)說話人特征向量組,或由用戶輸入目標(biāo)說話人實時語音數(shù)據(jù);
向用戶展現(xiàn)可選擇的已有目標(biāo)說話人特征向量組。
優(yōu)選地,所述從所述目標(biāo)說話人語音數(shù)據(jù)提取所需特征數(shù)據(jù),并輸出為基于不同語音幀中濁音的目標(biāo)說話人特征向量,包括:
利用預(yù)先構(gòu)建的內(nèi)容特征提取模型與聲學(xué)特征提取模型構(gòu)建特征提取網(wǎng)絡(luò);
利用預(yù)先構(gòu)建的聲學(xué)特征隨機波動數(shù)據(jù)提取模型構(gòu)建波動數(shù)據(jù)提取網(wǎng)絡(luò);
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于顏蔚,未經(jīng)顏蔚許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010543805.6/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 目標(biāo)檢測裝置、學(xué)習(xí)裝置、目標(biāo)檢測系統(tǒng)及目標(biāo)檢測方法
- 目標(biāo)監(jiān)測方法、目標(biāo)監(jiān)測裝置以及目標(biāo)監(jiān)測程序
- 目標(biāo)監(jiān)控系統(tǒng)及目標(biāo)監(jiān)控方法
- 目標(biāo)跟蹤方法和目標(biāo)跟蹤設(shè)備
- 目標(biāo)跟蹤方法和目標(biāo)跟蹤裝置
- 目標(biāo)檢測方法和目標(biāo)檢測裝置
- 目標(biāo)跟蹤方法、目標(biāo)跟蹤裝置、目標(biāo)跟蹤設(shè)備
- 目標(biāo)處理方法、目標(biāo)處理裝置、目標(biāo)處理設(shè)備及介質(zhì)
- 目標(biāo)處理方法、目標(biāo)處理裝置、目標(biāo)處理設(shè)備及介質(zhì)
- 目標(biāo)跟蹤系統(tǒng)及目標(biāo)跟蹤方法
- 圖像轉(zhuǎn)換設(shè)備、圖像轉(zhuǎn)換電路及圖像轉(zhuǎn)換方法
- 數(shù)模轉(zhuǎn)換電路及轉(zhuǎn)換方法
- 轉(zhuǎn)換設(shè)備和轉(zhuǎn)換方法
- 占空比轉(zhuǎn)換電路及轉(zhuǎn)換方法
- 通信轉(zhuǎn)換方法、轉(zhuǎn)換裝置及轉(zhuǎn)換系統(tǒng)
- 模數(shù)轉(zhuǎn)換和模數(shù)轉(zhuǎn)換方法
- 轉(zhuǎn)換模塊以及轉(zhuǎn)換電路
- 熱電轉(zhuǎn)換材料、熱電轉(zhuǎn)換元件和熱電轉(zhuǎn)換模塊
- 熱電轉(zhuǎn)換材料、熱電轉(zhuǎn)換元件及熱電轉(zhuǎn)換模塊
- 熱電轉(zhuǎn)換材料、熱電轉(zhuǎn)換元件及熱電轉(zhuǎn)換模塊





