[發明專利]用于生成音頻的方法、裝置、設備和介質有效
| 申請號: | 202010199256.5 | 申請日: | 2020-03-20 |
| 公開(公告)號: | CN111402842B | 公開(公告)日: | 2021-11-19 |
| 發明(設計)人: | 殷翔 | 申請(專利權)人: | 北京字節跳動網絡技術有限公司 |
| 主分類號: | G10L13/033 | 分類號: | G10L13/033 |
| 代理公司: | 北京英賽嘉華知識產權代理有限責任公司 11204 | 代理人: | 王達佐;馬曉亞 |
| 地址: | 100041 北京市石景山區*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 用于 生成 音頻 方法 裝置 設備 介質 | ||
本公開的實施例公開了用于生成音頻的方法、裝置、設備和介質。該用于生成音頻的方法的一具體實施方式包括:獲取目標語音風格信息和目標用戶發出的用戶語音音頻;基于目標語音風格信息和用戶語音音頻,生成目標語音音頻,其中,目標語音音頻的語音風格為目標語音風格信息指示的語音風格,目標語音音頻的音色與用戶語音音頻的音色相匹配,并且,目標語音音頻對應的文本信息與用戶語音音頻對應的文本信息相匹配。該實施方式在保持用戶語音音頻的音色及其對應的文本信息的基礎上,可以將用戶語音音頻的語音風格進行轉換,由此豐富了語音音頻的生成方式。
技術領域
本公開的實施例涉及計算機技術領域,具體涉及用于生成音頻的方法、裝置、設備和介質。
背景技術
隨著智能手機的普及,用戶對圖像、音頻、視頻等媒體信息的處理需求日益多樣化。例如,在用戶獲得圖像、音頻、視頻的同時或之后,通常希望對其進行進一步美化處理,然后再將處理后的圖像、視頻進行分享或展示。
目前,在音頻信號處理領域,常見的音頻處理方式包括:格式轉換、音頻拼接、加快或減慢音頻節奏等等。然而,音頻通常可以包含響度、音調、頻率、音色、樂音等多項特征,每一項特征的差異,都將產生音頻的不同。例如,現階段,越來越多的人喜歡用歌曲來表達自己的情感、釋放壓力等等。而由于唱歌技巧的缺乏,用戶往往難以演繹出自己滿意的歌曲,與原唱的演唱風格差異較大。
發明內容
本公開提出了用于生成音頻的方法、裝置、設備和介質。
第一方面,本公開的實施例提供了一種用于生成音頻的方法,該方法包括:獲取目標語音風格信息和目標用戶發出的用戶語音音頻;基于目標語音風格信息和用戶語音音頻,生成目標語音音頻,其中,目標語音音頻的語音風格為目標語音風格信息指示的語音風格,目標語音音頻的音色與用戶語音音頻的音色相匹配,并且,目標語音音頻對應的文本信息與用戶語音音頻對應的文本信息相匹配。
在一些實施例中,用戶語音音頻為目標用戶演唱的歌曲的音頻,用戶語音音頻對應的文本信息為歌曲的歌詞信息;以及,基于目標語音風格信息和用戶語音音頻,生成目標語音音頻,包括:基于歌詞信息、用戶語音音頻的聲譜信息,生成用戶語音音頻的音色信息;基于音色信息和目標語音風格信息,生成目標語音音頻,其中,目標語音音頻的音高與歌曲的音高相匹配。
在一些實施例中,音色信息和目標語音風格信息分別采用矩陣的形式表征;以及,基于音色信息和目標語音風格信息,生成目標語音音頻,包括:通過預先確定的聲碼器,基于音色信息和目標語音風格信息的點積結果指示的梅爾頻譜信息,生成目標語音音頻,其中,聲碼器用于表征梅爾頻譜信息與語音音頻之間的對應關系。
在一些實施例中,基于歌詞信息、用戶語音音頻的聲譜信息,生成用戶語音音頻的音色信息,包括:采用自回歸解碼器,基于歌詞信息、用戶語音音頻的聲譜信息,生成用戶語音音頻的音色信息。
在一些實施例中,目標語音風格信息通過如下步驟獲得:獲取具有目標語音風格信息指示的語音風格的人員的語音音頻;基于人員的語音音頻,生成目標語音風格信息。
在一些實施例中,基于人員的語音音頻,生成目標語音風格信息,包括:基于人員的語音音頻對應的文本信息、人員的語音音頻的聲譜信息和人員的語音音頻的梅爾頻譜信息,生成目標語音風格信息。
在一些實施例中,人員的語音音頻為人員演唱的歌曲的音頻,人員的語音音頻對應的文本信息為歌曲的歌詞信息;以及,基于人員的語音音頻對應的文本信息、人員的語音音頻的聲譜信息和人員的語音音頻的梅爾頻譜信息,生成目標語音風格信息,包括:基于歌詞信息、人員的語音音頻的聲譜信息、人員的語音音頻的梅爾頻譜信息和人員的語音音頻的音高信息,生成目標語音風格信息。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京字節跳動網絡技術有限公司,未經北京字節跳動網絡技術有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010199256.5/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種快速接頭及連接件
- 下一篇:像元級倍增內線幀轉移CCD像素結構





