[發(fā)明專利]構(gòu)建個性化歌唱風格頻譜合成模型的方法及裝置有效
| 申請?zhí)枺?/td> | 201410005753.1 | 申請日: | 2014-01-06 |
| 公開(公告)號: | CN104766603B | 公開(公告)日: | 2019-03-19 |
| 發(fā)明(設計)人: | 孫見青;王影;江源;凌震華;胡國平;胡郁 | 申請(專利權(quán))人: | 科大訊飛股份有限公司 |
| 主分類號: | G10L13/02 | 分類號: | G10L13/02 |
| 代理公司: | 北京維澳專利代理有限公司 11252 | 代理人: | 王立民;吉海蓮 |
| 地址: | 230088 安徽省*** | 國省代碼: | 安徽;34 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 頻譜合成 風格 朗讀 目標發(fā)音 發(fā)音 風格數(shù)據(jù) 個性化 合成模型 音色轉(zhuǎn)換 構(gòu)建 合成效果 獲取目標 模型轉(zhuǎn)換 用戶構(gòu)建 有效地 | ||
1.一種構(gòu)建個性化歌唱風格頻譜合成模型的方法,其特征在于,包括:
訓練源發(fā)音人朗讀風格頻譜合成模型和歌唱風格頻譜合成模型,其中所述頻譜合成模型包括頻譜參數(shù)模型及對應的決策樹;
獲取目標發(fā)音人朗讀風格數(shù)據(jù);
根據(jù)所述源發(fā)音人朗讀風格頻譜合成模型及所述目標發(fā)音人朗讀風格數(shù)據(jù),確定源發(fā)音人與目標發(fā)音人的音色轉(zhuǎn)換關系;
根據(jù)所述音色轉(zhuǎn)換關系對所述源發(fā)音人歌唱風格頻譜合成模型進行模型轉(zhuǎn)換,得到目標發(fā)音人歌唱風格頻譜合成模型。
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述訓練源發(fā)音人的朗讀風格頻譜合成模型和歌唱風格頻譜合成模型包括:
獲取源發(fā)音人的朗讀風格語音數(shù)據(jù)和歌唱風格語音數(shù)據(jù),并對所述語音數(shù)據(jù)進行標注;
提取所述語音數(shù)據(jù)對應的頻譜參數(shù);
利用源發(fā)音人的朗讀風格語音數(shù)據(jù)對應的頻譜參數(shù)和標注信息訓練源發(fā)音人的朗讀風格頻譜合成模型;
利用源發(fā)音人的歌唱風格語音數(shù)據(jù)對應的聲學參數(shù)和標注信息訓練源發(fā)音人的歌唱風格頻譜合成模型。
3.根據(jù)權(quán)利要求2所述的方法,其特征在于,所述朗讀風格語音數(shù)據(jù)標注的信息包括音素序列、音段切分、韻律詞和韻律短語;所述歌唱風格語音數(shù)據(jù)的標注信息包括音素序列、音段切分、韻律詞、韻律短語、以及與音樂相關的音高和時值信息。
4.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述根據(jù)所述源發(fā)音人朗讀風格頻譜合成模型及所述目標發(fā)音人朗讀風格數(shù)據(jù),確定源發(fā)音人與目標發(fā)音人的音色轉(zhuǎn)換關系包括:
從所述源發(fā)音人朗讀風格頻譜合成模型中選擇執(zhí)行自適應的模型;
從所述目標發(fā)音人的朗讀風格數(shù)據(jù)中選擇所述自適應模型所對應的訓練數(shù)據(jù);
根據(jù)所述訓練數(shù)據(jù)對選擇執(zhí)行自適應的模型進行自適應,得到頻譜轉(zhuǎn)換矩陣。
5.根據(jù)權(quán)利要求1至4任一項所述的方法,其特征在于,所述根據(jù)所述音色轉(zhuǎn)換關系對所述源發(fā)音人歌唱風格頻譜合成模型進行模型轉(zhuǎn)換,得到目標發(fā)音人歌唱風格頻譜合成模型包括:
根據(jù)以下公式獲得目標發(fā)音人歌唱風格頻譜合成模型:
∑-1=AAT
其中,μ和∑為源發(fā)音人歌唱風格頻譜合成模型的均值和方差,和為轉(zhuǎn)換后的頻譜合成模型的均值和方差,即為目標發(fā)音人歌唱風格頻譜合成模型的均值和方差,[Φ,B]和H為均值和方差的全局轉(zhuǎn)換矩陣,A表示所述方差的分解矩陣。
6.一種構(gòu)建個性化歌唱風格頻譜合成模型的裝置,其特征在于,包括:
模型訓練模塊,用于訓練源發(fā)音人朗讀風格頻譜合成模型和歌唱風格頻譜合成模型;
數(shù)據(jù)獲取模塊,用于獲取目標發(fā)音人朗讀風格數(shù)據(jù);
轉(zhuǎn)換關系確定模塊,用于根據(jù)所述源發(fā)音人朗讀風格頻譜合成模型及所述目標發(fā)音人朗讀風格數(shù)據(jù),確定源發(fā)音人與目標發(fā)音人的音色轉(zhuǎn)換關系;
轉(zhuǎn)換模塊,用于根據(jù)所述音色轉(zhuǎn)換關系對所述源發(fā)音人歌唱風格頻譜合成模型進行模型轉(zhuǎn)換,得到目標發(fā)音人歌唱風格頻譜合成模型。
7.根據(jù)權(quán)利要求6所述的裝置,其特征在于,所述模型訓練模塊包括:
數(shù)據(jù)獲取單元,用于獲取源發(fā)音人的朗讀風格語音數(shù)據(jù)和歌唱風格語音數(shù)據(jù),并對所述語音數(shù)據(jù)進行標注;
參數(shù)提取單元,用于提取所述語音數(shù)據(jù)對應的頻譜參數(shù);
第一訓練單元,用于利用源發(fā)音人的朗讀風格語音數(shù)據(jù)對應的頻譜參數(shù)和標注信息訓練源發(fā)音人的朗讀風格頻譜合成模型;
第二訓練單元,用于利用源發(fā)音人的歌唱風格語音數(shù)據(jù)對應的聲學參數(shù)和標注信息訓練源發(fā)音人的歌唱風格頻譜合成模型。
8.根據(jù)權(quán)利要求7所述的裝置,其特征在于,所述朗讀風格語音數(shù)據(jù)標注的信息包括音素序列、音段切分、韻律詞和韻律短語;所述歌唱風格語音數(shù)據(jù)的標注信息包括音素序列、音段切分、韻律詞、韻律短語、以及與音樂相關的音高和時值信息。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于科大訊飛股份有限公司,未經(jīng)科大訊飛股份有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201410005753.1/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。





