[發(fā)明專利]音頻文件生成方法、裝置、設(shè)備及計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)在審
| 申請?zhí)枺?/td> | 202011111958.X | 申請日: | 2020-10-16 |
| 公開(公告)號(hào): | CN112164379A | 公開(公告)日: | 2021-01-01 |
| 發(fā)明(設(shè)計(jì))人: | 牛力強(qiáng) | 申請(專利權(quán))人: | 騰訊科技(深圳)有限公司 |
| 主分類號(hào): | G10H1/00 | 分類號(hào): | G10H1/00;G10L13/08 |
| 代理公司: | 北京派特恩知識(shí)產(chǎn)權(quán)代理有限公司 11270 | 代理人: | 劉星雨;張穎玲 |
| 地址: | 518057 廣東省深圳*** | 國省代碼: | 廣東;44 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 音頻文件 生成 方法 裝置 設(shè)備 計(jì)算機(jī) 可讀 存儲(chǔ) 介質(zhì) | ||
本申請實(shí)施例提供一種音頻文件生成方法、裝置、設(shè)備及計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),涉及人工智能技術(shù)領(lǐng)域。方法包括:對接收到的文本和目標(biāo)對象分別進(jìn)行特征提取,對應(yīng)得到文本的第一特征向量和目標(biāo)對象的第二特征向量;對所述第一特征向量和所述第二特征向量進(jìn)行拼接,形成拼接特征向量;對所述拼接特征向量進(jìn)行音頻屬性特征的預(yù)測,得到至少兩個(gè)具有不同類型的音頻屬性特征;根據(jù)至少兩個(gè)所述音頻屬性特征,生成包含有所述文本且具有所述目標(biāo)對象的聲音特性的音頻文件。通過本申請實(shí)施例,能夠提高音頻文件生成方法的實(shí)際使用范圍,提高方法的泛化性。
技術(shù)領(lǐng)域
本申請實(shí)施例涉及互聯(lián)網(wǎng)技術(shù)領(lǐng)域,涉及但不限于一種音頻文件生成方法、裝置、設(shè)備及計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)。
背景技術(shù)
近年來,隨著深度學(xué)習(xí)技術(shù)和圖形處理器(GPU,Graphics Processing Unit)等硬件計(jì)算能力的發(fā)展,數(shù)字化內(nèi)容的生成突升為一個(gè)熱門的研究方向,如音頻、圖片、視頻、虛擬人等。在音頻領(lǐng)域,語音合成(TTS,Text to Speech)技術(shù)目前可以模擬人類的水平,比如可以進(jìn)行音樂內(nèi)容的生成。
相關(guān)技術(shù)中,音樂內(nèi)容的生成可以大致分為兩類:第一類,純音樂類,無歌詞,主要是生成單個(gè)或者多個(gè)樂器的一段音樂,如鋼琴曲、吉他曲、純音樂等;第二類,人聲音樂類,其中核心是人聲部分,唱出歌詞的內(nèi)容,而伴奏部分對應(yīng)背景音樂。對于第二類人聲音樂類,相關(guān)技術(shù)中的方法是在傳統(tǒng)TTS模型基礎(chǔ)上加入更多的音樂屬性特征(如音高、能量、歌手、節(jié)奏等)來生成音樂。
相關(guān)技術(shù)中的方法需要顯式地給定生成音頻的多個(gè)特征,如此,多個(gè)特征均需要從音頻中顯式提取,人工標(biāo)注數(shù)據(jù)成本較高,且只能適用于模型的訓(xùn)練階段,在實(shí)際使用時(shí)的預(yù)測階段,由于生成的音頻是未知的,因此,無法直接給出準(zhǔn)確的音樂屬性特征,從而造成實(shí)際使用范圍有限,相關(guān)技術(shù)的方法泛化性較差。
發(fā)明內(nèi)容
本申請實(shí)施例提供一種音頻文件生成方法、裝置、設(shè)備及計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),涉及人工智能技術(shù)領(lǐng)域。通過對文本和目標(biāo)對象進(jìn)行特征提取,并對與文本和目標(biāo)對象對應(yīng)的拼接特征向量進(jìn)行預(yù)測,得到至少兩個(gè)具有不同類型的音頻屬性特征,并生成音頻文件,如此,只需輸入文本和目標(biāo)對象即可生成音頻文件,因此能夠提高音頻文件生成方法的實(shí)際使用范圍,提高方法的泛化性。
本申請實(shí)施例的技術(shù)方案是這樣實(shí)現(xiàn)的:
本申請實(shí)施例提供一種音頻文件生成方法,包括:接收音頻文件生成請求,所述音頻文件生成請求中包括文本和目標(biāo)對象;對所述文本和所述目標(biāo)對象分別進(jìn)行特征提取,對應(yīng)得到所述文本的第一特征向量和所述目標(biāo)對象的第二特征向量;對所述第一特征向量和所述第二特征向量進(jìn)行拼接,形成拼接特征向量;對所述拼接特征向量進(jìn)行音頻屬性特征的預(yù)測,得到至少兩個(gè)具有不同類型的音頻屬性特征;根據(jù)至少兩個(gè)所述音頻屬性特征,生成包含有所述文本且具有所述目標(biāo)對象的聲音特性的音頻文件。
本申請實(shí)施例提供一種音頻文件生成裝置,包括:接收模塊,用于接收音頻文件生成請求,所述音頻文件生成請求中包括文本和目標(biāo)對象;特征提取模塊,用于對所述文本和所述目標(biāo)對象分別進(jìn)行特征提取,對應(yīng)得到所述文本的第一特征向量和所述目標(biāo)對象的第二特征向量;拼接模塊,用于對所述第一特征向量和所述第二特征向量進(jìn)行拼接,形成拼接特征向量;預(yù)測模塊,用于對所述拼接特征向量進(jìn)行音頻屬性特征的預(yù)測,得到至少兩個(gè)具有不同類型的音頻屬性特征;生成模塊,用于根據(jù)至少兩個(gè)所述音頻屬性特征,生成包含有所述文本且具有所述目標(biāo)對象的聲音特性的音頻文件。
本申請實(shí)施例提供一種計(jì)算機(jī)程序產(chǎn)品或計(jì)算機(jī)程序,所述計(jì)算機(jī)程序產(chǎn)品或計(jì)算機(jī)程序包括計(jì)算機(jī)指令,所述計(jì)算機(jī)指令存儲(chǔ)在計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)中;其中,計(jì)算機(jī)設(shè)備的處理器從所述計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)中讀取所述計(jì)算機(jī)指令,所述處理器用于執(zhí)行所述計(jì)算機(jī)指令,實(shí)現(xiàn)上述的網(wǎng)絡(luò)結(jié)構(gòu)搜索方法。
本申請實(shí)施例提供一種音頻文件生成設(shè)備,包括:存儲(chǔ)器,用于存儲(chǔ)可執(zhí)行指令;處理器,用于執(zhí)行所述存儲(chǔ)器中存儲(chǔ)的可執(zhí)行指令時(shí),實(shí)現(xiàn)上述的音頻文件生成方法。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于騰訊科技(深圳)有限公司,未經(jīng)騰訊科技(深圳)有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011111958.X/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 一種數(shù)據(jù)庫讀寫分離的方法和裝置
- 一種手機(jī)動(dòng)漫人物及背景創(chuàng)作方法
- 一種通訊綜合測試終端的測試方法
- 一種服裝用人體測量基準(zhǔn)點(diǎn)的獲取方法
- 系統(tǒng)升級(jí)方法及裝置
- 用于虛擬和接口方法調(diào)用的裝置和方法
- 線程狀態(tài)監(jiān)控方法、裝置、計(jì)算機(jī)設(shè)備和存儲(chǔ)介質(zhì)
- 一種JAVA智能卡及其虛擬機(jī)組件優(yōu)化方法
- 檢測程序中方法耗時(shí)的方法、裝置及存儲(chǔ)介質(zhì)
- 函數(shù)的執(zhí)行方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)





