[發(fā)明專利]用于生成音頻的方法、裝置、設備和介質有效
| 申請?zhí)枺?/td> | 202010199256.5 | 申請日: | 2020-03-20 |
| 公開(公告)號: | CN111402842B | 公開(公告)日: | 2021-11-19 |
| 發(fā)明(設計)人: | 殷翔 | 申請(專利權)人: | 北京字節(jié)跳動網(wǎng)絡技術有限公司 |
| 主分類號: | G10L13/033 | 分類號: | G10L13/033 |
| 代理公司: | 北京英賽嘉華知識產(chǎn)權代理有限責任公司 11204 | 代理人: | 王達佐;馬曉亞 |
| 地址: | 100041 北京市石景山區(qū)*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 用于 生成 音頻 方法 裝置 設備 介質 | ||
1.一種用于生成音頻的方法,包括:
獲取目標語音風格信息和目標用戶發(fā)出的用戶語音音頻,其中,所述目標語音風格信息為人員演唱的歌曲的演唱風格信息,所述目標語音風格信息根據(jù)所述人員演唱的歌曲的歌詞信息、聲譜信息和梅爾譜信息生成,所述目標語音風格信息表征以下至少一項:節(jié)奏、顫音、咬字、共鳴;
基于所述目標語音風格信息和所述用戶語音音頻,生成目標語音音頻,其中,所述目標語音音頻的語音風格為所述目標語音風格信息指示的語音風格,所述目標語音音頻的音色與所述用戶語音音頻的音色相匹配,并且,所述目標語音音頻對應的文本信息與所述用戶語音音頻對應的文本信息相匹配;
其中,所述基于所述目標語音風格信息和所述用戶語音音頻,生成目標語音音頻,包括:基于所述目標用戶演唱的歌曲的歌詞信息和聲譜信息,生成所述目標用戶演唱的歌曲的音色信息;基于所述音色信息和目標語音風格信息,生成目標語音音頻,且所述目標語音音頻的音高與所述目標用戶演唱的歌曲的音高相匹配。
2.根據(jù)權利要求1所述的方法,其中,所述音色信息和所述目標語音風格信息分別采用矩陣的形式表征;以及
所述基于所述音色信息和所述目標語音風格信息,生成目標語音音頻,包括:
通過預先確定的聲碼器,基于所述音色信息和所述目標語音風格信息的點積結果指示的梅爾頻譜信息,生成目標語音音頻,其中,所述聲碼器用于表征梅爾頻譜信息與語音音頻之間的對應關系。
3.根據(jù)權利要求1所述的方法,其中,所述基于所述歌詞信息、所述用戶語音音頻的聲譜信息,生成所述用戶語音音頻的音色信息,包括:
采用自回歸解碼器,基于所述歌詞信息、所述用戶語音音頻的聲譜信息,生成所述用戶語音音頻的音色信息。
4.根據(jù)權利要求1所述的方法,其中,所述目標語音風格信息通過如下步驟獲得:
獲取具有所述目標語音風格信息指示的語音風格的人員的語音音頻;
基于所述人員的語音音頻,生成目標語音風格信息。
5.根據(jù)權利要求4所述的方法,其中,所述基于所述人員的語音音頻,生成目標語音風格信息,包括:
基于所述人員的語音音頻對應的文本信息、所述人員的語音音頻的聲譜信息和所述人員的語音音頻的梅爾頻譜信息,生成目標語音風格信息。
6.根據(jù)權利要求5所述的方法,其中,所述人員的語音音頻為所述人員演唱的歌曲的音頻,所述人員的語音音頻對應的文本信息為所述歌曲的歌詞信息;以及
所述基于所述人員的語音音頻對應的文本信息、所述人員的語音音頻的聲譜信息和所述人員的語音音頻的梅爾頻譜信息,生成目標語音風格信息,包括:
基于所述歌詞信息、所述人員的語音音頻的聲譜信息、所述人員的語音音頻的梅爾頻譜信息和所述人員的語音音頻的音高信息,生成目標語音風格信息。
7.根據(jù)權利要求6所述的方法,其中,所述基于所述歌詞信息、所述人員的語音音頻的聲譜信息、所述人員的語音音頻的梅爾頻譜信息和所述人員的語音音頻的音高信息,生成目標語音風格信息,包括:
對所述歌詞信息和所述音高信息進行對齊處理,得到對齊后的歌詞信息和音高信息;
基于所述人員的語音音頻的聲譜信息、所述人員的語音音頻的梅爾頻譜信息,以及所述對齊后的歌詞信息和音高信息,生成目標語音風格信息。
8.根據(jù)權利要求4所述的方法,其中,所述基于所述人員的語音音頻,生成目標語音風格信息,包括:
采用自回歸解碼器,基于所述人員的語音音頻,生成目標語音風格信息。
9.根據(jù)權利要求1-3、5-7之一所述的方法,其中,聲譜信息采用嵌入向量embedding的形式表征。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京字節(jié)跳動網(wǎng)絡技術有限公司,未經(jīng)北京字節(jié)跳動網(wǎng)絡技術有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業(yè)授權和技術合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010199256.5/1.html,轉載請聲明來源鉆瓜專利網(wǎng)。
- 上一篇:一種快速接頭及連接件
- 下一篇:像元級倍增內(nèi)線幀轉移CCD像素結構





