[發明專利]一種多歌者歌聲合成方法及裝置有效
| 申請號: | 202011367298.1 | 申請日: | 2020-11-27 |
| 公開(公告)號: | CN112466313B | 公開(公告)日: | 2022-03-15 |
| 發明(設計)人: | 劉書君;王昆;朱海;周琳岷 | 申請(專利權)人: | 四川長虹電器股份有限公司 |
| 主分類號: | G10L19/16 | 分類號: | G10L19/16;G10L19/02;G10L15/02;G10L25/30 |
| 代理公司: | 四川省成都市天策商標專利事務所(有限合伙) 51213 | 代理人: | 趙以鵬 |
| 地址: | 621000 四*** | 國省代碼: | 四川;51 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 多歌者 歌聲 合成 方法 裝置 | ||
本發明公開了一種多歌者歌聲合成方法,屬于語音合成技術領域。該合成方法,包括包含模型訓練和模型推理兩階段,模型推理部分最終部署于裝置中。模型訓練包括:獲取多歌者歌聲數據,并提取樂句特征、音素發音時長和音頻頻譜特征,其中各個樂句特征和音素發音時長按照歌詞所展開的音素序列順序排列,并且其長度和音素個數保持一致,發音時長的總幀數和對應頻譜總幀數保持一致;為不同歌者的數據庫生成歌者向量;將樂句特征和歌者向量作為模型的輸入、將頻譜特征和發音時長作為模型擬合的目標聯合訓練模型。模型采用對抗生成網絡技術用以區分不同歌者的音色和發音特點,并保持合成歌聲質量接近原聲。
技術領域
本發明涉及語音合成技術領域,更具體的說是涉及一種多歌者歌聲合成方法及裝置。
背景技術
隨著歌聲合成技術的逐漸完善,由此技術衍生的虛擬偶像、唱歌機器人、音樂教育以及音樂泛娛樂應用等也逐步進入人們的生活,同時也對歌聲合成的質量、可控性、多樣性提出更高的要求。多歌者歌聲合成是一門利用一個模型產生多個不同歌者音色的歌聲合成技術,該技術輸入樂譜和指定的歌者信息合成出指定歌者音色的歌聲,從而實現歌聲合成的多樣性。多人語音合成技術已逐漸成熟,但多歌者歌聲合成技術依然存在巨大的挑戰并且在業界鮮有人嘗試。
由于歌聲數據庫獲取成本高、數據量小以及不同音高分布不均衡,直接采取多人語音合成的方法實現多歌者歌聲成容易造成模型對數據欠擬合以及模型參數對不同歌者過于平均,導致歌聲發音不清晰、歌者之間音色區分度低。
發明內容
本發明的目的在于提供一種多歌者歌聲合成方法及裝置,以期解決上述技術問題。
為了實現上述目的,本發明采用以下技術方案:
1、一種多歌者歌聲合成方法,其特征在于,包括訓練階段和推理階段:
訓練階段包括以下步驟:
S11.解析多歌者歌聲數據,并提取數據的樂句特征、樂句對應的音素發音時長和樂句對應的音頻頻譜特征;
S12.為每個歌聲數據庫生成歌者向量;
S13.將樂句特征和歌者向量作為模型輸入,頻譜特征和發音時長作為模型輸出,并采用生成對抗網絡作為模型的損失函數聯合訓練該模型;
推理階段包括以下步驟:
S21.解析樂譜并提取樂譜的樂句特征,生成歌者向量;
S22.將步驟S21所獲取的樂句特征和歌者向量共同輸入到S13得到的模型,從模型編碼器得到聲學特征,從模型的時長預測器得到每個音素的發音時長;
S23.根據樂譜中樂句時長調整其所對應合成音素的發音時長;
S24.根據每個音素的發音時長擴展聲學特征,并將擴展之后的聲學特征輸入到模型解碼器生成頻譜;
S25.利用步驟S24為每個樂句生成的頻譜輸入到聲碼器生成樂句相應歌聲音頻片段,并將所有音頻片段按照樂句在樂譜中的出現順序拼接為完整的歌聲音頻。
近一步地,所述步驟S11包括:
對多個歌者的樂譜數據文件解析出歌詞、音符音高和音符時長信息;
按照樂譜中休止符的位置將每張樂譜分割成多個樂句,休止符歸屬于該休止符之前的樂句;
將每個樂句相應的歌詞信息轉換為聲韻級別的音素序列,按照歌詞順序排列音素序列,并將排列后音素序列映射為整數向量;
將每個樂句相對應的音符音高信息和音符時長信息按照順序排列的音素序列分別展開,得到和音素序列個數一致的音符音高序列和音符時長序列,并將音符音高序列和音符時長序列分別映射為整數向量和浮點數向量;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于四川長虹電器股份有限公司,未經四川長虹電器股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011367298.1/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種抗衰老壓片糖果及其制作方法
- 下一篇:枸杞蜂蜜





