[發明專利]一種歌唱合成方法及裝置、電子設備有效
| 申請號: | 201710640027.0 | 申請日: | 2017-07-31 |
| 公開(公告)號: | CN109326280B | 公開(公告)日: | 2022-10-04 |
| 發明(設計)人: | 江源;胡國平;胡郁 | 申請(專利權)人: | 科大訊飛股份有限公司 |
| 主分類號: | G10L13/10 | 分類號: | G10L13/10 |
| 代理公司: | 北京維澳專利代理有限公司 11252 | 代理人: | 王立民 |
| 地址: | 230000 安徽省*** | 國省代碼: | 安徽;34 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 歌唱 合成 方法 裝置 電子設備 | ||
本發明公開了一種歌唱合成方法及裝置、電子設備,該方法包括如下步驟:步驟一,接收待合成文本數據;步驟二,利用建模后每種歌唱合成特征的長時模型對所述待合成文本數據進行歌唱合成,得到合成后的歌曲,本發明可增強合成歌曲的起伏感,進一步提升合成歌曲的自然度,提升用戶體驗。
技術領域
本發明涉及語音信號處理及機器學習領域,尤其涉及一種高自然度的歌唱合成方法及裝置、電子設備。
背景技術
歌唱合成即將文本合成為歌曲,具體應用時,可以由用戶提供任意文本,合成由目標發音人演唱的歌曲,如用戶提供一段新聞文本,合成由周杰倫演唱的歌曲,具有較高的娛樂性。
隨著移動互聯網的普及,越來越多的人們喜歡把自己喜歡的文字合成相應曲調的歌曲用于娛樂。現有的歌唱合成方法一般基于傳統的隱馬爾可夫模型分對每種歌唱合成特征(如頻譜特征、基頻特征)進行建模,具體建模時,將音庫中歌曲切分成單幀語音數據,利用隱馬爾可夫模型進行狀態級建模,建模尺度較低,對于歌曲這種時序較強的語音數據采用所述建模方法無法描述歌曲的長時韻律變化,建模效果較差,使得合成的歌曲自然度較低;而且現有方法在進行建模時,采用基于決策樹聚類的方法對數據進行劃分,聚到同一類的歌曲數據共享模型,容易導致合成的歌曲較平緩,起伏感降低,嚴重影響合成歌曲的主觀聽感。
發明內容
為克服上述現有技術存在的不足,本發明之目的在于提供一種歌唱合成方法及裝置、電子設備,以增強合成歌曲的起伏感,進一步提升合成歌曲的自然度,提升用戶體驗。
為達上述目的,本發明提供的技術方案如下:
一種歌唱合成方法,包括如下步驟:
步驟一,接收待合成文本數據;
步驟二,利用建模后每種歌唱合成特征的長時模型對所述待合成文本數據進行歌唱合成,得到合成后的歌曲。
進一步地,步驟一之前,還包括如下步驟:
收集海量歌曲數據;
分別對收集歌曲的歌唱合成特征進行多模型長時建模,得到每種歌唱合成特征的長時模型。
進一步地,所述歌唱合成特征包括根據歌曲數據提取的頻譜特征和基頻特征,每種歌唱合成特征分別采用普通長時模型和殘差長時模型描述,所述普通長時模型包含歌曲的頻譜信息及基頻信息,所述殘差長時模型除了包含歌曲的頻譜信息及基頻信息外,還包含每首歌曲的頻譜殘差長時信息和基頻殘差長時信息。
進一步地,所述每種歌唱合成特征的長時模型采用深度雙向長短時記憶模型描述。
進一步地,步驟二包括:
根據所述待合成文本數據指定的樂譜信息得到歌唱合成的時長特征;
利用建模后的頻譜長時模型和基頻長時模型生成相應頻譜特征、基頻特征;
將所述時長特征、頻譜特征、基頻特征進行合成,合成相應的歌曲。
進一步地,所述分別對收集歌曲的歌唱合成特征進行多模型長時建模,得到每種歌唱合成特征的長時模型的步驟包括:
對收集歌曲進行文本標注,得到文本標注特征;
提取每首歌曲歌唱合成特征的殘差信息,所述殘差信息包括頻譜殘差長時信息與基頻殘差長時信息;
根據每首歌曲的文本標注特征及殘差信息對歌唱合成特征進行多模型長時建模。
進一步地,所述對收集歌曲進行文本標注,得到文本標注特征的步驟為根據每首歌曲的歌詞及歌曲的樂譜信息對收集的每首歌曲進行標注,得到歌曲對應的標注文本,將每首歌曲的標注文本作為文本標注特征。
進一步地,提取頻譜殘差長時信息包括如下步驟:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于科大訊飛股份有限公司,未經科大訊飛股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710640027.0/2.html,轉載請聲明來源鉆瓜專利網。





