[發(fā)明專利]樂譜轉(zhuǎn)化為聲譜的生成方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)有效
| 申請(qǐng)?zhí)枺?/td> | 202110322919.2 | 申請(qǐng)日: | 2021-03-26 |
| 公開(公告)號(hào): | CN112906872B | 公開(公告)日: | 2023-08-15 |
| 發(fā)明(設(shè)計(jì))人: | 劉奡智;韓寶強(qiáng);肖京 | 申請(qǐng)(專利權(quán))人: | 平安科技(深圳)有限公司 |
| 主分類號(hào): | G06V10/82 | 分類號(hào): | G06V10/82;G06N3/0464;G06N3/08;G06V10/40 |
| 代理公司: | 北京市京大律師事務(wù)所 11321 | 代理人: | 姚維 |
| 地址: | 518033 廣東省深圳市福田區(qū)福*** | 國省代碼: | 廣東;44 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 樂譜 轉(zhuǎn)化 聲譜 生成 方法 裝置 設(shè)備 存儲(chǔ) 介質(zhì) | ||
1.一種樂譜轉(zhuǎn)化為聲譜的生成方法,其特征在于,所述樂譜轉(zhuǎn)化為聲譜的生成方法包括:
獲取待轉(zhuǎn)化樂譜圖片,并將所述待轉(zhuǎn)化樂譜圖片輸入樂譜編碼器中,通過所述樂譜編碼器對(duì)所述待轉(zhuǎn)化樂譜圖片進(jìn)行編碼,得到編碼圖;
將所述編碼圖傳輸至U型網(wǎng)絡(luò)中,利用所述U型網(wǎng)絡(luò)對(duì)所述編碼圖進(jìn)行拆分,生成拆分圖;
通過啞變量構(gòu)成的開關(guān)確定所述拆分圖中的停頓特征向量,并利用樂譜解碼器對(duì)確定所述停頓特征向量后的拆分圖進(jìn)行解碼,得到解碼圖;
將所述解碼圖輸入至文本卷積網(wǎng)絡(luò)中,利用所述文本卷積網(wǎng)絡(luò)中的條件碼對(duì)所述解碼圖進(jìn)行細(xì)化處理,生成聲譜圖;
所述通過啞變量構(gòu)成的開關(guān)確定所述拆分圖中的停頓特征向量,包括:
獲取所述拆分圖中的多個(gè)音頻特征向量,并獲取相鄰兩個(gè)音頻特征向量之間的停頓間隔,得到多個(gè)停頓間隔;
將所述停頓間隔大于間隔閾值的停頓間隔確定為目標(biāo)間隔,利用啞變量構(gòu)成的開關(guān)對(duì)所述目標(biāo)間隔進(jìn)行賦值,得到第一賦值特征向量,并將所述第一賦值特征向量確定為停頓特征向量;
所述利用所述文本卷積網(wǎng)絡(luò)中的條件碼對(duì)所述解碼圖進(jìn)行細(xì)化處理,生成聲譜圖包括:
通過所述文本卷積網(wǎng)絡(luò)中的條件碼對(duì)所述解碼圖中的解碼特征向量進(jìn)行條件約束,得到條件約束后的向量;
對(duì)所述條件約束后的向量進(jìn)行卷積計(jì)算并生成聲譜圖。
2.根據(jù)權(quán)利要求1所述的樂譜轉(zhuǎn)化為聲譜的生成方法,其特征在于,所述獲取待轉(zhuǎn)化樂譜圖片,并將所述待轉(zhuǎn)化樂譜圖片輸入樂譜編碼器中,通過所述樂譜編碼器對(duì)所述待轉(zhuǎn)化樂譜圖片進(jìn)行編碼,得到編碼圖包括:
獲取待轉(zhuǎn)化樂譜圖片,并將所述待轉(zhuǎn)化樂譜圖片輸入樂譜編碼器中,提取所述待轉(zhuǎn)化樂譜圖片中的初始向量;
通過所述樂譜編碼器生成所述初始向量對(duì)應(yīng)的潛在變量;
利用損失函數(shù)計(jì)算所述潛在變量的損失向量;
將所述潛在變量與所述損失向量進(jìn)行整合,得到編碼向量,將所述編碼向量構(gòu)成的圖譜確定為編碼圖。
3.根據(jù)權(quán)利要求2所述的樂譜轉(zhuǎn)化為聲譜的生成方法,其特征在于,所述利用損失函數(shù)計(jì)算所述潛在變量的損失向量包括:
利用損失函數(shù)分別計(jì)算所述潛在變量的均值和標(biāo)準(zhǔn)差,分別得到均值向量和標(biāo)準(zhǔn)差向量;
對(duì)所述標(biāo)準(zhǔn)差向量進(jìn)行采樣,得到采樣向量,并將所述采樣向量與對(duì)應(yīng)的所述均值向量進(jìn)行疊加,生成所述潛在變量的損失向量。
4.根據(jù)權(quán)利要求1所述的樂譜轉(zhuǎn)化為聲譜的生成方法,其特征在于,所述將所述編碼圖傳輸至U型網(wǎng)絡(luò)中,利用所述U型網(wǎng)絡(luò)對(duì)所述編碼圖進(jìn)行拆分,生成拆分圖包括:
將所述編碼圖傳輸至U型網(wǎng)絡(luò)中,利用所述U型網(wǎng)絡(luò)中的全卷積網(wǎng)絡(luò)對(duì)所述編碼圖進(jìn)行卷積計(jì)算,并利用最大池化層對(duì)卷積計(jì)算后的結(jié)果進(jìn)行池化處理,得到降采樣特征圖;
通過所述U型網(wǎng)絡(luò)中的反卷積網(wǎng)絡(luò)對(duì)所述降采樣特征圖進(jìn)行卷積計(jì)算,生成擴(kuò)展特征圖;
根據(jù)所述擴(kuò)展特征圖的尺寸對(duì)所述降采樣特征圖進(jìn)行剪裁,并將裁剪后得到特征圖與所述擴(kuò)展特征圖進(jìn)行歸一化處理,生成拆分圖。
5.根據(jù)權(quán)利要求1所述的樂譜轉(zhuǎn)化為聲譜的生成方法,其特征在于,所述通過啞變量構(gòu)成的開關(guān)確定所述拆分圖中的停頓特征向量,并利用樂譜解碼器對(duì)確定所述停頓特征向量后的拆分圖進(jìn)行解碼,得到解碼圖還包括:
將所述停頓間隔小于或等于所述間隔閾值的停頓間隔確定為其他間隔,利用所述啞變量構(gòu)成的開關(guān)對(duì)所述其他間隔進(jìn)行賦值,得到第二賦值特征向量,并將所述第二賦值特征向量確定為連續(xù)特征向量;
利用樂譜解碼器對(duì)確定所述停頓特征向量后的拆分圖進(jìn)行解碼,得到解碼圖。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于平安科技(深圳)有限公司,未經(jīng)平安科技(深圳)有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110322919.2/1.html,轉(zhuǎn)載請(qǐng)聲明來源鉆瓜專利網(wǎng)。





