[發(fā)明專(zhuān)利]用于生成音頻的方法、裝置、設(shè)備和介質(zhì)在審
| 申請(qǐng)?zhí)枺?/td> | 202011272828.4 | 申請(qǐng)日: | 2020-11-13 |
| 公開(kāi)(公告)號(hào): | CN112382273A | 公開(kāi)(公告)日: | 2021-02-19 |
| 發(fā)明(設(shè)計(jì))人: | 湯本來(lái);史璇 | 申請(qǐng)(專(zhuān)利權(quán))人: | 北京有竹居網(wǎng)絡(luò)技術(shù)有限公司 |
| 主分類(lèi)號(hào): | G10L13/033 | 分類(lèi)號(hào): | G10L13/033;G10L13/04;G10L19/00;G10L25/03;G10L25/27 |
| 代理公司: | 北京海智友知識(shí)產(chǎn)權(quán)代理事務(wù)所(普通合伙) 11455 | 代理人: | 吳京順 |
| 地址: | 101299 北京市平*** | 國(guó)省代碼: | 北京;11 |
| 權(quán)利要求書(shū): | 查看更多 | 說(shuō)明書(shū): | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 用于 生成 音頻 方法 裝置 設(shè)備 介質(zhì) | ||
本公開(kāi)的實(shí)施例公開(kāi)了用于生成音頻的方法、裝置、設(shè)備和介質(zhì)。該用于生成音頻的方法的一具體實(shí)施方式包括:獲取源說(shuō)話人的聲學(xué)特征信息和目標(biāo)年齡段標(biāo)簽信息;基于源說(shuō)話人的聲學(xué)特征信息和目標(biāo)年齡段標(biāo)簽信息,生成目標(biāo)語(yǔ)音音頻,其中,目標(biāo)年齡段標(biāo)簽信息用于指示目標(biāo)語(yǔ)音音頻所屬的年齡段信息。該實(shí)施方式可以將源說(shuō)話人的聲學(xué)特征信息轉(zhuǎn)換為具有目標(biāo)年齡段標(biāo)簽信息的語(yǔ)音音頻,由此實(shí)現(xiàn)了語(yǔ)音音頻所屬的年齡段切換,豐富了語(yǔ)音音頻的生成方式。
技術(shù)領(lǐng)域
本公開(kāi)的實(shí)施例涉及計(jì)算機(jī)技術(shù)領(lǐng)域,具體涉及用于生成音頻的方法、裝置、設(shè)備和介質(zhì)。
背景技術(shù)
近年來(lái),由于短視頻和數(shù)字娛樂(lè)媒體的迅猛發(fā)展,將源說(shuō)話人語(yǔ)音轉(zhuǎn)變?yōu)椴煌挲g段的語(yǔ)音得到了廣泛關(guān)注和研究。
對(duì)源說(shuō)話人的語(yǔ)音進(jìn)行切換的方式主要是利用頻譜搬移,將語(yǔ)音信號(hào)轉(zhuǎn)換為頻域信號(hào),然后在頻域上,將信號(hào)頻譜整體搬移到高頻域范圍,最后再將其變換回時(shí)域,最終完成變聲目的。
發(fā)明內(nèi)容
本公開(kāi)提出了用于生成音頻的方法、裝置、設(shè)備和介質(zhì)。
第一方面,本公開(kāi)的實(shí)施例提供了一種用于生成音頻的方法,該方法包括:獲取源說(shuō)話人的聲學(xué)特征信息和目標(biāo)年齡段標(biāo)簽信息;基于源說(shuō)話人的聲學(xué)特征信息和目標(biāo)年齡段標(biāo)簽信息,生成目標(biāo)語(yǔ)音音頻,其中,目標(biāo)年齡段標(biāo)簽信息用于指示目標(biāo)語(yǔ)音音頻所屬的年齡段信息。
在一些實(shí)施例中,基于源說(shuō)話人的聲學(xué)特征信息和目標(biāo)年齡段標(biāo)簽信息,生成目標(biāo)語(yǔ)音音頻,包括:將源說(shuō)話人的聲學(xué)特征信息輸入預(yù)訓(xùn)練的生成對(duì)抗網(wǎng)絡(luò)中生成網(wǎng)絡(luò)中的編碼器,得到編碼后的聲學(xué)特征信息;將編碼后的聲學(xué)特征信息和目標(biāo)年齡段標(biāo)簽信息輸入預(yù)訓(xùn)練的生成對(duì)抗網(wǎng)絡(luò)中生成網(wǎng)絡(luò)中的解碼器,得到目標(biāo)聲學(xué)特征信息;將目標(biāo)聲學(xué)特征信息輸入聲碼器,得到目標(biāo)語(yǔ)音音頻。
在一些實(shí)施例中,編碼器和解碼器通過(guò)以下方式訓(xùn)練得到:獲取不同用戶(hù)提供的聲學(xué)特征信息樣本;將聲學(xué)特征信息樣本輸入待訓(xùn)練的編碼器,得到編碼后的聲學(xué)特征信息樣本;將編碼后的聲學(xué)特征信息樣本輸入解碼器,得到預(yù)測(cè)的聲學(xué)特征信息;基于預(yù)測(cè)的聲學(xué)特征信息、與輸入的聲學(xué)特征信息樣本相對(duì)應(yīng)的具有期望的年齡段標(biāo)簽信息的聲學(xué)特征信息和生成對(duì)抗網(wǎng)絡(luò)中的判別網(wǎng)絡(luò),對(duì)生成網(wǎng)絡(luò)的編碼器和解碼器進(jìn)行訓(xùn)練,得到訓(xùn)練完成的編碼器和解碼器。
在一些實(shí)施例中,基于預(yù)測(cè)的聲學(xué)特征信息、與輸入的聲學(xué)特征信息樣本相對(duì)應(yīng)的具有期望的年齡段標(biāo)簽信息的聲學(xué)特征信息和生成對(duì)抗網(wǎng)絡(luò)中的判別網(wǎng)絡(luò),對(duì)生成網(wǎng)絡(luò)的編碼器和解碼器進(jìn)行訓(xùn)練,得到訓(xùn)練完成的編碼器和解碼器,包括:將預(yù)測(cè)的聲學(xué)特征信息輸入年齡段信息分類(lèi)器,得到分類(lèi)后的聲學(xué)特征信息;將分類(lèi)后的聲學(xué)特征信息和與輸入的聲學(xué)特征信息樣本相對(duì)應(yīng)的具有期望的年齡段標(biāo)簽信息的聲學(xué)特征信息輸入判別網(wǎng)絡(luò)以對(duì)生成網(wǎng)絡(luò)的編碼器和解碼器進(jìn)行訓(xùn)練,得到訓(xùn)練完成的編碼器和解碼器。
在一些實(shí)施例中,基于源說(shuō)話人的聲學(xué)特征信息和目標(biāo)年齡段標(biāo)簽信息,生成目標(biāo)語(yǔ)音音頻,包括:基于源說(shuō)話人的聲學(xué)特征信息、源說(shuō)話人的年齡段標(biāo)簽信息和目標(biāo)年齡段標(biāo)簽信息,生成目標(biāo)語(yǔ)音音頻,其中,源說(shuō)話人的年齡段標(biāo)簽信息用于指示源說(shuō)話人的聲學(xué)特征信息所屬的年齡段信息。
在一些實(shí)施例中,不同用戶(hù)的性別與源說(shuō)話人的性別相同。
在一些實(shí)施例中,聲學(xué)特征信息為梅爾頻譜信息。
第二方面,本公開(kāi)的實(shí)施例提供了一種用于生成音頻的裝置,該裝置包括:獲取單元,被配置成獲取源說(shuō)話人的聲學(xué)特征信息和目標(biāo)年齡段標(biāo)簽信息;生成單元,被配置成基于所述源說(shuō)話人的聲學(xué)特征信息和目標(biāo)年齡段標(biāo)簽信息,生成目標(biāo)語(yǔ)音音頻,其中,目標(biāo)年齡段標(biāo)簽信息用于指示目標(biāo)語(yǔ)音音頻所屬的年齡段信息。
第三方面,本公開(kāi)的實(shí)施例提供了一種用于生成音頻的電子設(shè)備,包括:一個(gè)或多個(gè)處理器;存儲(chǔ)裝置,其上存儲(chǔ)有一個(gè)或多個(gè)程序,當(dāng)上述一個(gè)或多個(gè)程序被上述一個(gè)或多個(gè)處理器執(zhí)行,使得該一個(gè)或多個(gè)處理器實(shí)現(xiàn)如上述用于生成音頻的方法中任一實(shí)施例的方法。
該專(zhuān)利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專(zhuān)利權(quán)人授權(quán)。該專(zhuān)利全部權(quán)利屬于北京有竹居網(wǎng)絡(luò)技術(shù)有限公司,未經(jīng)北京有竹居網(wǎng)絡(luò)技術(shù)有限公司許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買(mǎi)此專(zhuān)利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011272828.4/2.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專(zhuān)利網(wǎng)。
- 同類(lèi)專(zhuān)利
- 專(zhuān)利分類(lèi)
G10L 語(yǔ)音分析或合成;語(yǔ)音識(shí)別;音頻分析或處理
G10L13-00 語(yǔ)音合成;文本-語(yǔ)音合成系統(tǒng)
G10L13-02 .產(chǎn)生合成語(yǔ)音的方法;語(yǔ)音合成設(shè)備
G10L13-06 .語(yǔ)音合成設(shè)備中使用的基本語(yǔ)音單位;級(jí)聯(lián)規(guī)則
G10L13-08 .文本分析或文本以外的語(yǔ)音合成參數(shù)的產(chǎn)生,例如語(yǔ)義圖翻譯為音素、韻律產(chǎn)生、重音或聲調(diào)測(cè)定
G10L13-04 ..語(yǔ)音合成系統(tǒng)的零部件,例如合成設(shè)備結(jié)構(gòu)或存儲(chǔ)器管理
- 自動(dòng)配置藍(lán)牙A2DP傳輸音頻編碼格式的方法和系統(tǒng)
- 一種多路音頻處理方法、音頻播放終端及音頻接收裝置
- 一種音頻處理方法、裝置及終端設(shè)備
- 一種音頻質(zhì)量的檢測(cè)方法、裝置、電子設(shè)備及存儲(chǔ)介質(zhì)
- 音頻分離方法、裝置、設(shè)備及計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)
- 一種音頻播放方法、裝置、以及計(jì)算機(jī)存儲(chǔ)介質(zhì)
- 一種音頻錄制系統(tǒng)
- 一種音頻共享系統(tǒng)及方法
- 音頻樣本生成方法、裝置、計(jì)算機(jī)設(shè)備及存儲(chǔ)介質(zhì)
- 音頻處理方法和裝置
- 一種數(shù)據(jù)庫(kù)讀寫(xiě)分離的方法和裝置
- 一種手機(jī)動(dòng)漫人物及背景創(chuàng)作方法
- 一種通訊綜合測(cè)試終端的測(cè)試方法
- 一種服裝用人體測(cè)量基準(zhǔn)點(diǎn)的獲取方法
- 系統(tǒng)升級(jí)方法及裝置
- 用于虛擬和接口方法調(diào)用的裝置和方法
- 線程狀態(tài)監(jiān)控方法、裝置、計(jì)算機(jī)設(shè)備和存儲(chǔ)介質(zhì)
- 一種JAVA智能卡及其虛擬機(jī)組件優(yōu)化方法
- 檢測(cè)程序中方法耗時(shí)的方法、裝置及存儲(chǔ)介質(zhì)
- 函數(shù)的執(zhí)行方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)





