[發(fā)明專利]一種從源說話人到目標(biāo)說話人的聲音轉(zhuǎn)換方法及裝置在審

申請?zhí)枺?/td>	202010543805.6	申請日：	2020-06-15
公開（公告）號：	CN113808595A	公開（公告）日：	2021-12-17
發(fā)明（設(shè)計）人：	顏蔚	申請（專利權(quán)）人：	顏蔚
主分類號：	G10L17/02	分類號：	G10L17/02;G10L17/04;G10L17/18;G10L17/14;G10L25/93
代理公司：	暫無信息	代理人：	暫無信息
地址：	224600 江蘇省鹽城市響***	國省代碼：	江蘇;32
權(quán)利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關(guān)鍵詞：	一種說話目標(biāo) 聲音轉(zhuǎn)換方法裝置
鉆瓜網(wǎng) 技術(shù)展會專利詞庫專利權(quán)人專利榜在售專利公布日期熱門專利

【說明書】：

本申請公開了一種源說話人到目標(biāo)說話人的聲音轉(zhuǎn)換方法及裝置，該方法包括：在獲取源說話人或目標(biāo)說話人的語音數(shù)據(jù)后，提取每一語音幀中的濁音所對應(yīng)的內(nèi)容特征數(shù)據(jù)與聲學(xué)特征數(shù)據(jù)，存儲為說話人的一個特征向量，根據(jù)濁音的內(nèi)容特征數(shù)據(jù)判斷濁音內(nèi)容，按照濁音內(nèi)容和說話人類型將所有特征向量分類存儲，并利用分類存儲后的特征向量得到基于不同濁音的源說話人到目標(biāo)說話人的聲學(xué)特征轉(zhuǎn)換參數(shù)，然后，接收待轉(zhuǎn)換語音數(shù)據(jù)，判斷每一幀待轉(zhuǎn)換語音中的濁音內(nèi)容，選取相應(yīng)的聲學(xué)轉(zhuǎn)換參數(shù)對待轉(zhuǎn)換的語音幀進行多線程并行的語音轉(zhuǎn)換。利用本申請實施例，可以細化濁音的區(qū)分并簡化聲音轉(zhuǎn)換的準(zhǔn)備工作，令使用者可以在較短時間內(nèi)得到品質(zhì)較高的轉(zhuǎn)換語音。

技術(shù)領(lǐng)域

本申請涉及語音信號處理技術(shù)領(lǐng)域，具體涉及一種從源說話人到目標(biāo)說話人的聲音轉(zhuǎn)換方法及裝置。

背景技術(shù)

在日常生活的交流中，我們可以通過一個人的聲音判斷出這個人是否是我們熟悉的人，這是因為每個人的聲音往往是獨一無二的，很難找到擁有相同音色的兩個人。源說話人到目標(biāo)說話人聲音轉(zhuǎn)換技術(shù)可以對源說話人的語音數(shù)據(jù)進行處理轉(zhuǎn)換，使轉(zhuǎn)換后的語音具有目標(biāo)說話人的音色特征，而語義內(nèi)容保持不變。

這種技術(shù)擁有廣泛的應(yīng)用前景，例如用于通信安全領(lǐng)域，保證通話的私密性。也可用于舞臺表演等實時表演時增加效果，或者解決配音行業(yè)的音源不足等問題。

但是，現(xiàn)有的語音轉(zhuǎn)換技術(shù)要想得到理想的效果，在獲取所需要的語音數(shù)據(jù)后，往往還需要較長時間的訓(xùn)練與轉(zhuǎn)換，使得語音轉(zhuǎn)換的實時性效果較差。

發(fā)明內(nèi)容

本申請旨在提供一種源說話人到目標(biāo)說話人的聲音轉(zhuǎn)換方法及裝置，具體基于語音轉(zhuǎn)換時根據(jù)濁音類型的不同進行多線程并行的聲學(xué)特征轉(zhuǎn)換，使得可以在較短時間內(nèi)獲得精度較高的轉(zhuǎn)換語音。

本申請?zhí)峁┮环N源說話人到目標(biāo)說話人的聲音轉(zhuǎn)換方法，包括：

接收源說話人語音數(shù)據(jù)，并進行分幀預(yù)處理；

從所述源說話人語音數(shù)據(jù)中提取所需特征數(shù)據(jù)，并輸出為基于不同語音幀中濁音的源說話人特征向量；

接收目標(biāo)說話人語音數(shù)據(jù)，并進行分幀預(yù)處理；

從所述目標(biāo)說話人語音數(shù)據(jù)提取所需特征數(shù)據(jù)，并輸出為基于不同語音幀中濁音的目標(biāo)說話人特征向量；

將所述源說話人特征向量與目標(biāo)說話人特征向量按照其濁音類型進行分類存儲；

利用分類存儲后的源說話人和目標(biāo)說話人特征向量進行訓(xùn)練，得到基于不同濁音的源說話人到目標(biāo)說話人的聲學(xué)特征映射參數(shù)；

接收源說話人待轉(zhuǎn)換語音數(shù)據(jù)，并進行分幀處理；

將所有濁音的映射參數(shù)輸入語音轉(zhuǎn)換模型，按照待轉(zhuǎn)換語音中不同幀包含的濁音類型進行語音轉(zhuǎn)換，得到轉(zhuǎn)換后的目標(biāo)語音數(shù)據(jù)。

優(yōu)選地，所述從所述源說話人語音數(shù)據(jù)中提取所需特征數(shù)據(jù)，并輸出為基于不同語音幀中濁音的源說話人特征向量，包括：

利用預(yù)先構(gòu)建的內(nèi)容特征提取模型與聲學(xué)特征提取模型構(gòu)建特征提取網(wǎng)絡(luò)；

提取源說話人語音數(shù)據(jù)不同幀中的濁音的內(nèi)容特征數(shù)據(jù)與聲學(xué)特征數(shù)據(jù)；

將同一語音幀中的濁音對應(yīng)的內(nèi)容特征與聲學(xué)特征作為兩個元素存儲為一個源說話人特征向量。

優(yōu)選地，所述接收目標(biāo)說話人語音數(shù)據(jù)，包括：

向用戶提供兩種選擇，可使用已有的目標(biāo)說話人特征向量組，或由用戶輸入目標(biāo)說話人實時語音數(shù)據(jù)；

向用戶展現(xiàn)可選擇的已有目標(biāo)說話人特征向量組。

優(yōu)選地，所述從所述目標(biāo)說話人語音數(shù)據(jù)提取所需特征數(shù)據(jù)，并輸出為基于不同語音幀中濁音的目標(biāo)說話人特征向量，包括：

利用預(yù)先構(gòu)建的內(nèi)容特征提取模型與聲學(xué)特征提取模型構(gòu)建特征提取網(wǎng)絡(luò)；

利用預(yù)先構(gòu)建的聲學(xué)特征隨機波動數(shù)據(jù)提取模型構(gòu)建波動數(shù)據(jù)提取網(wǎng)絡(luò)；

下載完整專利技術(shù)內(nèi)容需要扣除積分，VIP會員可以免費下載。

免登錄下載普通用戶下載升級VIP會員，免費下載

該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息，商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于顏蔚，未經(jīng)顏蔚許可，擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作，請聯(lián)系【客服】

本文鏈接：http://www.szxzyx.cn/pat/books/202010543805.6/2.html，轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。

上一篇：連接組件、連接裝置及車輛
下一篇：一種中醫(yī)方劑評價和推送方法、裝置及電子設(shè)備

同類專利

專利分類

G 物理

G10 樂器；聲學(xué)
G10L 語音分析或合成；語音識別；音頻分析或處理
G10L17-00 講話者辨認(rèn)或驗證

免登錄下載普通用戶下載升級VIP會員，免費下載

專利文獻下載

說明：

1、專利原文基于中國國家知識產(chǎn)權(quán)局專利說明書；

2、支持發(fā)明專利、實用新型專利、外觀設(shè)計專利（升級中）；

3、專利數(shù)據(jù)每周兩次同步更新，支持Adobe PDF格式；

4、內(nèi)容包括專利技術(shù)的結(jié)構(gòu)示意圖、流程工藝圖或技術(shù)構(gòu)造圖；

5、已全新升級為極速版,下載速度顯著提升！歡迎使用！

請您登陸后，進行下載，點擊【登陸】【注冊】