[發明專利]一種歌唱合成方法及裝置、電子設備有效
| 申請號: | 201710640027.0 | 申請日: | 2017-07-31 |
| 公開(公告)號: | CN109326280B | 公開(公告)日: | 2022-10-04 |
| 發明(設計)人: | 江源;胡國平;胡郁 | 申請(專利權)人: | 科大訊飛股份有限公司 |
| 主分類號: | G10L13/10 | 分類號: | G10L13/10 |
| 代理公司: | 北京維澳專利代理有限公司 11252 | 代理人: | 王立民 |
| 地址: | 230000 安徽省*** | 國省代碼: | 安徽;34 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 歌唱 合成 方法 裝置 電子設備 | ||
1.一種歌唱合成方法,包括如下步驟:
步驟一,接收待合成文本數據;
步驟二,利用建模獲得的每種歌唱合成特征的長時模型對所述待合成文本數據進行歌唱合成,得到合成后的歌曲;
其中,所述歌唱合成特征包括根據歌曲數據提取的頻譜特征和基頻特征,每種歌唱合成特征分別采用普通長時模型和殘差長時模型描述,所述殘差長時模型除包含歌曲的頻譜信息及基頻信息外,還包含每首歌曲的頻譜殘差長時信息和基頻殘差長時信息;其中,所述頻譜殘差長時信息表示不同歌手對相同語法單元的發音音色差異或相同語法單元在不同的歌詞中的發音音色差異。
2.如權利要求1所述的一種歌唱合成方法,其特征在于,步驟一之前,還包括如下步驟:
收集海量歌曲數據;
分別對收集歌曲的歌唱合成特征進行多模型長時建模,得到每種歌唱合成特征的長時模型。
3.如權利要求2所述的一種歌唱合成方法,其特征在于:所述普通長時模型包含歌曲的頻譜信息及基頻信息。
4.如權利要求3所述的一種歌唱合成方法,其特征在于:所述每種歌唱合成特征的長時模型采用深度雙向長短時記憶模型描述。
5.如權利要求4所述的一種歌唱合成方法,其特征在于,步驟二進一步包括:
根據所述待合成文本數據指定的樂譜信息得到歌唱合成的時長特征;
利用建模后的頻譜長時模型和基頻長時模型生成相應頻譜特征、基頻特征;
將所述時長特征、頻譜特征、基頻特征進行合成,合成相應的歌曲。
6.如權利要求4所述的一種歌唱合成方法,其特征在于,所述分別對收集歌曲的歌唱合成特征進行多模型長時建模,得到每種歌唱合成特征的長時模型的步驟進一步包括:
對收集歌曲進行文本標注,得到文本標注特征;
提取每首歌曲歌唱合成特征的殘差信息,所述殘差信息包括頻譜殘差長時信息與基頻殘差長時信息;
根據每首歌曲的文本標注特征及殘差信息對歌唱合成特征進行多模型長時建模。
7.如權利要求6所述的一種歌唱合成方法,其特征在于,提取頻譜殘差長時信息包括如下步驟:
對所有收集歌曲使用的語法單元類別進行編號;
對每首歌曲中包含的歌詞以句為單位進行編號,使用第一向量表示每首歌曲中每句歌詞的編號,使用第二向量表示每句歌詞中每個語法單元的類別;
根據第一向量及第二向量找到每首歌曲中每句歌詞中每個語法單元的類別,將第一向量和第二向量進行拼接,得到頻譜殘差長時向量,獲得所述頻譜殘差長時信息。
8.如權利要求6所述的一種歌唱合成方法,其特征在于,提取基頻殘差長時信息包括如下步驟:
將所有收集歌曲的演唱者及歌曲所屬的類型進行編號;
使用二維矩陣來表示每首歌曲的演唱者及每首歌曲的所屬的類型,從而得到基頻殘差長時矩陣,獲得所述基頻殘差長時信息。
9.如權利要求7或8所述的一種歌唱合成方法,其特征在于,所述根據每首歌曲的文本標注特征及殘差信息對歌唱合成特征進行多模型長時建模的步驟進一步包括:
根據所述文本標注特征以及頻譜殘差長時信息、基頻殘差長時信息確定歌唱合成特征各長時模型的輸入輸出,其中,頻譜殘差長時模型的輸入為每首歌曲的文本標注特征及頻譜殘差長時向量,輸出為頻譜特征;基頻殘差長時模型的輸入為每首歌的文本標注特征及基頻殘差長時信息,輸出為基頻特征;
利用收集的海量歌曲數據分別對每種歌唱合成特征進行長時模型訓練,獲得每種歌唱合成特征的各長時模型,對每種歌唱合成特征進行長時模型訓練具體包括:
利用收集的海量歌曲數據訓練普通長時模型;
利用所述普通長時模型初始化殘差長時模型;
利用收集的海量歌曲數據訓練殘差長時模型。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于科大訊飛股份有限公司,未經科大訊飛股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710640027.0/1.html,轉載請聲明來源鉆瓜專利網。





