[發(fā)明專利]音頻文件生成方法、裝置、設(shè)備及計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)在審

申請?zhí)枺?/td>	202011111958.X	申請日：	2020-10-16
公開（公告）號(hào)：	CN112164379A	公開（公告）日：	2021-01-01
發(fā)明（設(shè)計(jì)）人：	牛力強(qiáng)	申請（專利權(quán)）人：	騰訊科技（深圳）有限公司
主分類號(hào)：	G10H1/00	分類號(hào)：	G10H1/00;G10L13/08
代理公司：	北京派特恩知識(shí)產(chǎn)權(quán)代理有限公司 11270	代理人：	劉星雨;張穎玲
地址：	518057 廣東省深圳***	國省代碼：	廣東;44
權(quán)利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關(guān)鍵詞：	音頻文件生成方法裝置設(shè)備計(jì)算機(jī) 可讀存儲(chǔ) 介質(zhì)
鉆瓜網(wǎng) 技術(shù)展會(huì) 專利詞庫專利權(quán)人專利榜在售專利公布日期熱門專利

【說明書】：

本申請實(shí)施例提供一種音頻文件生成方法、裝置、設(shè)備及計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)，涉及人工智能技術(shù)領(lǐng)域。方法包括：對接收到的文本和目標(biāo)對象分別進(jìn)行特征提取，對應(yīng)得到文本的第一特征向量和目標(biāo)對象的第二特征向量；對所述第一特征向量和所述第二特征向量進(jìn)行拼接，形成拼接特征向量；對所述拼接特征向量進(jìn)行音頻屬性特征的預(yù)測，得到至少兩個(gè)具有不同類型的音頻屬性特征；根據(jù)至少兩個(gè)所述音頻屬性特征，生成包含有所述文本且具有所述目標(biāo)對象的聲音特性的音頻文件。通過本申請實(shí)施例，能夠提高音頻文件生成方法的實(shí)際使用范圍，提高方法的泛化性。

技術(shù)領(lǐng)域

本申請實(shí)施例涉及互聯(lián)網(wǎng)技術(shù)領(lǐng)域，涉及但不限于一種音頻文件生成方法、裝置、設(shè)備及計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)。

背景技術(shù)

近年來，隨著深度學(xué)習(xí)技術(shù)和圖形處理器(GPU，Graphics Processing Unit)等硬件計(jì)算能力的發(fā)展，數(shù)字化內(nèi)容的生成突升為一個(gè)熱門的研究方向，如音頻、圖片、視頻、虛擬人等。在音頻領(lǐng)域，語音合成(TTS，Text to Speech)技術(shù)目前可以模擬人類的水平，比如可以進(jìn)行音樂內(nèi)容的生成。

相關(guān)技術(shù)中，音樂內(nèi)容的生成可以大致分為兩類：第一類，純音樂類，無歌詞，主要是生成單個(gè)或者多個(gè)樂器的一段音樂，如鋼琴曲、吉他曲、純音樂等；第二類，人聲音樂類，其中核心是人聲部分，唱出歌詞的內(nèi)容，而伴奏部分對應(yīng)背景音樂。對于第二類人聲音樂類，相關(guān)技術(shù)中的方法是在傳統(tǒng)TTS模型基礎(chǔ)上加入更多的音樂屬性特征(如音高、能量、歌手、節(jié)奏等)來生成音樂。

相關(guān)技術(shù)中的方法需要顯式地給定生成音頻的多個(gè)特征，如此，多個(gè)特征均需要從音頻中顯式提取，人工標(biāo)注數(shù)據(jù)成本較高，且只能適用于模型的訓(xùn)練階段，在實(shí)際使用時(shí)的預(yù)測階段，由于生成的音頻是未知的，因此，無法直接給出準(zhǔn)確的音樂屬性特征，從而造成實(shí)際使用范圍有限，相關(guān)技術(shù)的方法泛化性較差。

發(fā)明內(nèi)容

本申請實(shí)施例提供一種音頻文件生成方法、裝置、設(shè)備及計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)，涉及人工智能技術(shù)領(lǐng)域。通過對文本和目標(biāo)對象進(jìn)行特征提取，并對與文本和目標(biāo)對象對應(yīng)的拼接特征向量進(jìn)行預(yù)測，得到至少兩個(gè)具有不同類型的音頻屬性特征，并生成音頻文件，如此，只需輸入文本和目標(biāo)對象即可生成音頻文件，因此能夠提高音頻文件生成方法的實(shí)際使用范圍，提高方法的泛化性。

本申請實(shí)施例的技術(shù)方案是這樣實(shí)現(xiàn)的：

本申請實(shí)施例提供一種音頻文件生成方法，包括：接收音頻文件生成請求，所述音頻文件生成請求中包括文本和目標(biāo)對象；對所述文本和所述目標(biāo)對象分別進(jìn)行特征提取，對應(yīng)得到所述文本的第一特征向量和所述目標(biāo)對象的第二特征向量；對所述第一特征向量和所述第二特征向量進(jìn)行拼接，形成拼接特征向量；對所述拼接特征向量進(jìn)行音頻屬性特征的預(yù)測，得到至少兩個(gè)具有不同類型的音頻屬性特征；根據(jù)至少兩個(gè)所述音頻屬性特征，生成包含有所述文本且具有所述目標(biāo)對象的聲音特性的音頻文件。

本申請實(shí)施例提供一種音頻文件生成裝置，包括：接收模塊，用于接收音頻文件生成請求，所述音頻文件生成請求中包括文本和目標(biāo)對象；特征提取模塊，用于對所述文本和所述目標(biāo)對象分別進(jìn)行特征提取，對應(yīng)得到所述文本的第一特征向量和所述目標(biāo)對象的第二特征向量；拼接模塊，用于對所述第一特征向量和所述第二特征向量進(jìn)行拼接，形成拼接特征向量；預(yù)測模塊，用于對所述拼接特征向量進(jìn)行音頻屬性特征的預(yù)測，得到至少兩個(gè)具有不同類型的音頻屬性特征；生成模塊，用于根據(jù)至少兩個(gè)所述音頻屬性特征，生成包含有所述文本且具有所述目標(biāo)對象的聲音特性的音頻文件。

本申請實(shí)施例提供一種計(jì)算機(jī)程序產(chǎn)品或計(jì)算機(jī)程序，所述計(jì)算機(jī)程序產(chǎn)品或計(jì)算機(jī)程序包括計(jì)算機(jī)指令，所述計(jì)算機(jī)指令存儲(chǔ)在計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)中；其中，計(jì)算機(jī)設(shè)備的處理器從所述計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)中讀取所述計(jì)算機(jī)指令，所述處理器用于執(zhí)行所述計(jì)算機(jī)指令，實(shí)現(xiàn)上述的網(wǎng)絡(luò)結(jié)構(gòu)搜索方法。

本申請實(shí)施例提供一種音頻文件生成設(shè)備，包括：存儲(chǔ)器，用于存儲(chǔ)可執(zhí)行指令；處理器，用于執(zhí)行所述存儲(chǔ)器中存儲(chǔ)的可執(zhí)行指令時(shí)，實(shí)現(xiàn)上述的音頻文件生成方法。

下載完整專利技術(shù)內(nèi)容需要扣除積分，VIP會(huì)員可以免費(fèi)下載。

免登錄下載普通用戶下載升級(jí)VIP會(huì)員，免費(fèi)下載

該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息，商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于騰訊科技（深圳）有限公司，未經(jīng)騰訊科技（深圳）有限公司許可，擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作，請聯(lián)系【客服】

本文鏈接：http://www.szxzyx.cn/pat/books/202011111958.X/2.html，轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。