[發(fā)明專利]構(gòu)建個性化歌唱風格頻譜合成模型的方法及裝置有效

申請?zhí)枺?/td>	201410005753.1	申請日：	2014-01-06
公開（公告）號：	CN104766603B	公開（公告）日：	2019-03-19
發(fā)明（設計）人：	孫見青;王影;江源;凌震華;胡國平;胡郁	申請（專利權(quán)）人：	科大訊飛股份有限公司
主分類號：	G10L13/02	分類號：	G10L13/02
代理公司：	北京維澳專利代理有限公司 11252	代理人：	王立民;吉海蓮
地址：	230088 安徽省***	國省代碼：	安徽;34
權(quán)利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關鍵詞：	頻譜合成風格朗讀目標發(fā)音發(fā)音風格數(shù)據(jù) 個性化合成模型音色轉(zhuǎn)換構(gòu)建合成效果獲取目標模型轉(zhuǎn)換用戶構(gòu)建有效地
鉆瓜網(wǎng) 技術(shù)展會專利詞庫專利權(quán)人專利榜在售專利公布日期熱門專利

【權(quán)利要求書】：

1.一種構(gòu)建個性化歌唱風格頻譜合成模型的方法，其特征在于，包括：

訓練源發(fā)音人朗讀風格頻譜合成模型和歌唱風格頻譜合成模型，其中所述頻譜合成模型包括頻譜參數(shù)模型及對應的決策樹；

獲取目標發(fā)音人朗讀風格數(shù)據(jù)；

根據(jù)所述源發(fā)音人朗讀風格頻譜合成模型及所述目標發(fā)音人朗讀風格數(shù)據(jù)，確定源發(fā)音人與目標發(fā)音人的音色轉(zhuǎn)換關系；

根據(jù)所述音色轉(zhuǎn)換關系對所述源發(fā)音人歌唱風格頻譜合成模型進行模型轉(zhuǎn)換，得到目標發(fā)音人歌唱風格頻譜合成模型。

2.根據(jù)權(quán)利要求1所述的方法，其特征在于，所述訓練源發(fā)音人的朗讀風格頻譜合成模型和歌唱風格頻譜合成模型包括：

獲取源發(fā)音人的朗讀風格語音數(shù)據(jù)和歌唱風格語音數(shù)據(jù)，并對所述語音數(shù)據(jù)進行標注；

提取所述語音數(shù)據(jù)對應的頻譜參數(shù)；

利用源發(fā)音人的朗讀風格語音數(shù)據(jù)對應的頻譜參數(shù)和標注信息訓練源發(fā)音人的朗讀風格頻譜合成模型；

利用源發(fā)音人的歌唱風格語音數(shù)據(jù)對應的聲學參數(shù)和標注信息訓練源發(fā)音人的歌唱風格頻譜合成模型。

3.根據(jù)權(quán)利要求2所述的方法，其特征在于，所述朗讀風格語音數(shù)據(jù)標注的信息包括音素序列、音段切分、韻律詞和韻律短語；所述歌唱風格語音數(shù)據(jù)的標注信息包括音素序列、音段切分、韻律詞、韻律短語、以及與音樂相關的音高和時值信息。

4.根據(jù)權(quán)利要求1所述的方法，其特征在于，所述根據(jù)所述源發(fā)音人朗讀風格頻譜合成模型及所述目標發(fā)音人朗讀風格數(shù)據(jù)，確定源發(fā)音人與目標發(fā)音人的音色轉(zhuǎn)換關系包括：

從所述源發(fā)音人朗讀風格頻譜合成模型中選擇執(zhí)行自適應的模型；

從所述目標發(fā)音人的朗讀風格數(shù)據(jù)中選擇所述自適應模型所對應的訓練數(shù)據(jù)；

根據(jù)所述訓練數(shù)據(jù)對選擇執(zhí)行自適應的模型進行自適應，得到頻譜轉(zhuǎn)換矩陣。

5.根據(jù)權(quán)利要求1至4任一項所述的方法，其特征在于，所述根據(jù)所述音色轉(zhuǎn)換關系對所述源發(fā)音人歌唱風格頻譜合成模型進行模型轉(zhuǎn)換，得到目標發(fā)音人歌唱風格頻譜合成模型包括：

根據(jù)以下公式獲得目標發(fā)音人歌唱風格頻譜合成模型：

∑^-1＝AA^T

其中，μ和∑為源發(fā)音人歌唱風格頻譜合成模型的均值和方差，和為轉(zhuǎn)換后的頻譜合成模型的均值和方差，即為目標發(fā)音人歌唱風格頻譜合成模型的均值和方差，[Φ,B]和H為均值和方差的全局轉(zhuǎn)換矩陣，A表示所述方差的分解矩陣。

6.一種構(gòu)建個性化歌唱風格頻譜合成模型的裝置，其特征在于，包括：

模型訓練模塊，用于訓練源發(fā)音人朗讀風格頻譜合成模型和歌唱風格頻譜合成模型；

數(shù)據(jù)獲取模塊，用于獲取目標發(fā)音人朗讀風格數(shù)據(jù)；

轉(zhuǎn)換關系確定模塊，用于根據(jù)所述源發(fā)音人朗讀風格頻譜合成模型及所述目標發(fā)音人朗讀風格數(shù)據(jù)，確定源發(fā)音人與目標發(fā)音人的音色轉(zhuǎn)換關系；

轉(zhuǎn)換模塊，用于根據(jù)所述音色轉(zhuǎn)換關系對所述源發(fā)音人歌唱風格頻譜合成模型進行模型轉(zhuǎn)換，得到目標發(fā)音人歌唱風格頻譜合成模型。

7.根據(jù)權(quán)利要求6所述的裝置，其特征在于，所述模型訓練模塊包括：

數(shù)據(jù)獲取單元，用于獲取源發(fā)音人的朗讀風格語音數(shù)據(jù)和歌唱風格語音數(shù)據(jù)，并對所述語音數(shù)據(jù)進行標注；

參數(shù)提取單元，用于提取所述語音數(shù)據(jù)對應的頻譜參數(shù)；

第一訓練單元，用于利用源發(fā)音人的朗讀風格語音數(shù)據(jù)對應的頻譜參數(shù)和標注信息訓練源發(fā)音人的朗讀風格頻譜合成模型；

第二訓練單元，用于利用源發(fā)音人的歌唱風格語音數(shù)據(jù)對應的聲學參數(shù)和標注信息訓練源發(fā)音人的歌唱風格頻譜合成模型。

8.根據(jù)權(quán)利要求7所述的裝置，其特征在于，所述朗讀風格語音數(shù)據(jù)標注的信息包括音素序列、音段切分、韻律詞和韻律短語；所述歌唱風格語音數(shù)據(jù)的標注信息包括音素序列、音段切分、韻律詞、韻律短語、以及與音樂相關的音高和時值信息。

下載完整專利技術(shù)內(nèi)容需要扣除積分，VIP會員可以免費下載。

免登錄下載普通用戶下載升級VIP會員，免費下載

該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息，商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于科大訊飛股份有限公司，未經(jīng)科大訊飛股份有限公司許可，擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作，請聯(lián)系【客服】

本文鏈接：http://www.szxzyx.cn/pat/books/201410005753.1/1.html，轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。

上一篇：電子控制單元和具有電子控制單元的電動助力轉(zhuǎn)向裝置
下一篇：磁記錄介質(zhì)

同類專利

專利分類

G 物理

G10 樂器；聲學
G10L 語音分析或合成；語音識別；音頻分析或處理
G10L13-00 語音合成；文本-語音合成系統(tǒng)
G10L13-02 .產(chǎn)生合成語音的方法；語音合成設備
G10L13-06 .語音合成設備中使用的基本語音單位；級聯(lián)規(guī)則
G10L13-08 .文本分析或文本以外的語音合成參數(shù)的產(chǎn)生，例如語義圖翻譯為音素、韻律產(chǎn)生、重音或聲調(diào)測定
G10L13-04 ..語音合成系統(tǒng)的零部件，例如合成設備結(jié)構(gòu)或存儲器管理

免登錄下載普通用戶下載升級VIP會員，免費下載

專利文獻下載

說明：

1、專利原文基于中國國家知識產(chǎn)權(quán)局專利說明書；

2、支持發(fā)明專利、實用新型專利、外觀設計專利（升級中）；

3、專利數(shù)據(jù)每周兩次同步更新，支持Adobe PDF格式；

4、內(nèi)容包括專利技術(shù)的結(jié)構(gòu)示意圖、流程工藝圖或技術(shù)構(gòu)造圖；

5、已全新升級為極速版,下載速度顯著提升！歡迎使用！

請您登陸后，進行下載，點擊【登陸】【注冊】