[發(fā)明專利]歌聲轉(zhuǎn)換在審
| 申請?zhí)枺?/td> | 202180009251.4 | 申請日: | 2021-02-08 |
| 公開(公告)號(hào): | CN114981882A | 公開(公告)日: | 2022-08-30 |
| 發(fā)明(設(shè)計(jì))人: | 俞承柱;盧恒;翁超;俞棟 | 申請(專利權(quán))人: | 騰訊美國有限責(zé)任公司 |
| 主分類號(hào): | G10H1/36 | 分類號(hào): | G10H1/36 |
| 代理公司: | 北京派特恩知識(shí)產(chǎn)權(quán)代理有限公司 11270 | 代理人: | 趙翠萍;徐川 |
| 地址: | 美國加利福尼亞州*** | 國省代碼: | 暫無信息 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 歌聲 轉(zhuǎn)換 | ||
1.一種將第一歌聲轉(zhuǎn)換為第二歌聲的方法,包括:
通過計(jì)算機(jī)對與一個(gè)或多個(gè)音素相關(guān)聯(lián)的上下文進(jìn)行編碼,所述一個(gè)或多個(gè)音素對應(yīng)于所述第一歌聲;
通過所述計(jì)算機(jī)基于已編碼的上下文,將所述一個(gè)或多個(gè)音素與一個(gè)或多個(gè)目標(biāo)聲學(xué)幀對齊;
通過所述計(jì)算機(jī)根據(jù)已對齊的音素和所述目標(biāo)聲學(xué)幀來遞歸地生成一個(gè)或多個(gè)梅爾譜圖特征;以及
通過所述計(jì)算機(jī)使用所生成的梅爾譜圖特征,將對應(yīng)于所述第一歌聲的樣本轉(zhuǎn)換為對應(yīng)于所述第二歌聲的樣本。
2.根據(jù)權(quán)利要求1所述的方法,其中,所述編碼包括:
接收所述一個(gè)或多個(gè)音素的序列;和
輸出一個(gè)或多個(gè)隱藏狀態(tài)的序列,所述一個(gè)或多個(gè)隱藏狀態(tài)的序列包含與所接收的音素的序列相關(guān)聯(lián)的順序表示。
3.根據(jù)權(quán)利要求2所述的方法,其中,所述將所述一個(gè)或多個(gè)音素與一個(gè)或多個(gè)目標(biāo)聲學(xué)幀對齊包括:
將所述隱藏狀態(tài)的輸出序列與對應(yīng)于所述第一歌聲的信息級(jí)聯(lián);
通過使用全連接層,對所級(jí)聯(lián)的輸出序列應(yīng)用降維;
基于與每個(gè)音素相關(guān)聯(lián)的持續(xù)時(shí)間來擴(kuò)展經(jīng)降維的輸出序列;以及
將所擴(kuò)展的輸出序列與所述目標(biāo)聲學(xué)幀對齊。
4.根據(jù)權(quán)利要求3所述的方法,進(jìn)一步包括:將一個(gè)或多個(gè)幀對齊的隱藏狀態(tài)與幀級(jí)別、均方根誤差值以及與每一幀相關(guān)聯(lián)的相對位置級(jí)聯(lián)。
5.根據(jù)權(quán)利要求4所述的方法,其中,根據(jù)對一個(gè)或多個(gè)輸入音素和一個(gè)或多個(gè)聲學(xué)特征執(zhí)行的力對齊,獲得每個(gè)音素的所述持續(xù)時(shí)間。
6.根據(jù)權(quán)利要求1所述的方法,其中,所述基于已對齊的幀來生成一個(gè)或多個(gè)梅爾譜圖特征包括:
根據(jù)與所述一個(gè)或多個(gè)目標(biāo)聲學(xué)幀對齊的一個(gè)或多個(gè)已編碼的隱藏狀態(tài),計(jì)算注意力上下文;和
將CBHG技術(shù)應(yīng)用于所計(jì)算的注意力上下文。
7.根據(jù)權(quán)利要求6所述的方法,其中,與所述梅爾譜圖相關(guān)聯(lián)的損耗值被最小化。
8.根據(jù)權(quán)利要求1所述的方法,其中,由遞歸神經(jīng)網(wǎng)絡(luò)執(zhí)行所述生成一個(gè)或多個(gè)梅爾譜圖特征。
9.根據(jù)權(quán)利要求8所述的方法,其中,所述遞歸神經(jīng)網(wǎng)絡(luò)的輸入包括所述一個(gè)或多個(gè)音素的序列、與所述一個(gè)或多個(gè)音素中的每一個(gè)相關(guān)聯(lián)的持續(xù)時(shí)間、基頻、均方根誤差值以及與發(fā)音者相關(guān)聯(lián)的身份。
10.根據(jù)權(quán)利要求1所述的方法,其中,在沒有并行數(shù)據(jù)且不改變與所述第一歌聲相關(guān)聯(lián)的上下文的情況下,將所述第一歌聲轉(zhuǎn)換為所述第二歌聲。
11.一種用于將第一歌聲轉(zhuǎn)換為第二歌聲的計(jì)算機(jī)系統(tǒng),所述計(jì)算機(jī)系統(tǒng)包括:
一個(gè)或多個(gè)計(jì)算機(jī)可讀的非暫時(shí)性存儲(chǔ)介質(zhì),配置為存儲(chǔ)計(jì)算機(jī)程序代碼;和
一個(gè)或多個(gè)計(jì)算機(jī)處理器,配置為訪問所述計(jì)算機(jī)程序代碼,并按照所述計(jì)算機(jī)程序代碼的指令進(jìn)行操作,所述計(jì)算機(jī)程序代碼包括:
編碼代碼,配置為使得所述一個(gè)或多個(gè)計(jì)算機(jī)處理器對與一個(gè)或多個(gè)音素相關(guān)聯(lián)的上下文進(jìn)行編碼,所述一個(gè)或多個(gè)音素對應(yīng)于所述第一歌聲;
對齊代碼,配置為使得所述一個(gè)或多個(gè)計(jì)算機(jī)處理器基于已編碼的上下文,將所述一個(gè)或多個(gè)音素與一個(gè)或多個(gè)目標(biāo)聲學(xué)幀對齊;
生成代碼,配置為使得所述一個(gè)或多個(gè)計(jì)算機(jī)處理器根據(jù)已對齊的音素和所述目標(biāo)聲學(xué)幀來遞歸地生成一個(gè)或多個(gè)梅爾譜圖特征;以及
轉(zhuǎn)換代碼,配置為使得所述一個(gè)或多個(gè)計(jì)算機(jī)處理器通過使用所生成的梅爾譜圖特征,將對應(yīng)于所述第一歌聲的樣本轉(zhuǎn)換為對應(yīng)于所述第二歌聲的樣本。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于騰訊美國有限責(zé)任公司,未經(jīng)騰訊美國有限責(zé)任公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202180009251.4/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 上一篇:車輛的電池控制裝置
- 下一篇:可調(diào)節(jié)高度的傳感器頂部
- 樂曲文件生成裝置、樂曲文件生成方法以及記錄介質(zhì)
- 一種歌聲語音的處理方法和裝置
- 一種歌聲合成方法及裝置
- 基于遷移學(xué)習(xí)的歌聲合成方法、裝置及存儲(chǔ)介質(zhì)
- 歌聲合成模型的訓(xùn)練方法、裝置、計(jì)算機(jī)設(shè)備以及存儲(chǔ)介質(zhì)
- 歌聲生成方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)
- 一種基于歌詞歌聲對齊的唱歌評(píng)分方法
- 歌曲生成方法和裝置
- 一種實(shí)時(shí)修正音色的方法、裝置、終端設(shè)備及計(jì)算機(jī)存儲(chǔ)介質(zhì)
- 一種歌聲合成方法、設(shè)備及計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)
- 圖像轉(zhuǎn)換設(shè)備、圖像轉(zhuǎn)換電路及圖像轉(zhuǎn)換方法
- 數(shù)模轉(zhuǎn)換電路及轉(zhuǎn)換方法
- 轉(zhuǎn)換設(shè)備和轉(zhuǎn)換方法
- 占空比轉(zhuǎn)換電路及轉(zhuǎn)換方法
- 通信轉(zhuǎn)換方法、轉(zhuǎn)換裝置及轉(zhuǎn)換系統(tǒng)
- 模數(shù)轉(zhuǎn)換和模數(shù)轉(zhuǎn)換方法
- 轉(zhuǎn)換模塊以及轉(zhuǎn)換電路
- 熱電轉(zhuǎn)換材料、熱電轉(zhuǎn)換元件和熱電轉(zhuǎn)換模塊
- 熱電轉(zhuǎn)換材料、熱電轉(zhuǎn)換元件及熱電轉(zhuǎn)換模塊
- 熱電轉(zhuǎn)換材料、熱電轉(zhuǎn)換元件及熱電轉(zhuǎn)換模塊





