[發明專利]一種多歌者歌聲合成方法及裝置有效

申請號：	202011367298.1	申請日：	2020-11-27
公開（公告）號：	CN112466313B	公開（公告）日：	2022-03-15
發明（設計）人：	劉書君;王昆;朱海;周琳岷	申請（專利權）人：	四川長虹電器股份有限公司
主分類號：	G10L19/16	分類號：	G10L19/16;G10L19/02;G10L15/02;G10L25/30
代理公司：	四川省成都市天策商標專利事務所(有限合伙) 51213	代理人：	趙以鵬
地址：	621000 四***	國省代碼：	四川;51
權利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關鍵詞：	一種多歌者歌聲合成方法裝置
鉆瓜網技術展會專利詞庫專利權人專利榜在售專利公布日期熱門專利

【說明書】：

本發明公開了一種多歌者歌聲合成方法，屬于語音合成技術領域。該合成方法，包括包含模型訓練和模型推理兩階段，模型推理部分最終部署于裝置中。模型訓練包括：獲取多歌者歌聲數據，并提取樂句特征、音素發音時長和音頻頻譜特征，其中各個樂句特征和音素發音時長按照歌詞所展開的音素序列順序排列，并且其長度和音素個數保持一致，發音時長的總幀數和對應頻譜總幀數保持一致；為不同歌者的數據庫生成歌者向量；將樂句特征和歌者向量作為模型的輸入、將頻譜特征和發音時長作為模型擬合的目標聯合訓練模型。模型采用對抗生成網絡技術用以區分不同歌者的音色和發音特點，并保持合成歌聲質量接近原聲。

技術領域

本發明涉及語音合成技術領域，更具體的說是涉及一種多歌者歌聲合成方法及裝置。

背景技術

隨著歌聲合成技術的逐漸完善，由此技術衍生的虛擬偶像、唱歌機器人、音樂教育以及音樂泛娛樂應用等也逐步進入人們的生活，同時也對歌聲合成的質量、可控性、多樣性提出更高的要求。多歌者歌聲合成是一門利用一個模型產生多個不同歌者音色的歌聲合成技術，該技術輸入樂譜和指定的歌者信息合成出指定歌者音色的歌聲，從而實現歌聲合成的多樣性。多人語音合成技術已逐漸成熟，但多歌者歌聲合成技術依然存在巨大的挑戰并且在業界鮮有人嘗試。

由于歌聲數據庫獲取成本高、數據量小以及不同音高分布不均衡，直接采取多人語音合成的方法實現多歌者歌聲成容易造成模型對數據欠擬合以及模型參數對不同歌者過于平均，導致歌聲發音不清晰、歌者之間音色區分度低。

發明內容

本發明的目的在于提供一種多歌者歌聲合成方法及裝置，以期解決上述技術問題。

為了實現上述目的，本發明采用以下技術方案：

1、一種多歌者歌聲合成方法，其特征在于，包括訓練階段和推理階段：

訓練階段包括以下步驟：

S11.解析多歌者歌聲數據，并提取數據的樂句特征、樂句對應的音素發音時長和樂句對應的音頻頻譜特征；

S12.為每個歌聲數據庫生成歌者向量；

S13.將樂句特征和歌者向量作為模型輸入，頻譜特征和發音時長作為模型輸出，并采用生成對抗網絡作為模型的損失函數聯合訓練該模型；

推理階段包括以下步驟：

S21.解析樂譜并提取樂譜的樂句特征，生成歌者向量；

S22.將步驟S21所獲取的樂句特征和歌者向量共同輸入到S13得到的模型，從模型編碼器得到聲學特征，從模型的時長預測器得到每個音素的發音時長；