[發(fā)明專利]一種語音過濾方法、裝置、電子設(shè)備及存儲(chǔ)介質(zhì)在審
| 申請(qǐng)?zhí)枺?/td> | 202111665116.3 | 申請(qǐng)日: | 2021-12-31 |
| 公開(公告)號(hào): | CN114299989A | 公開(公告)日: | 2022-04-08 |
| 發(fā)明(設(shè)計(jì))人: | 甘文東;文博龍;閆影;陳海濤;郭凱旋;李海;黃心馳 | 申請(qǐng)(專利權(quán))人: | 成都愛奇藝智能創(chuàng)新科技有限公司 |
| 主分類號(hào): | G10L25/24 | 分類號(hào): | G10L25/24;G10L25/87;G10L15/14;G10L15/16;G10L13/033 |
| 代理公司: | 北京華夏泰和知識(shí)產(chǎn)權(quán)代理有限公司 11662 | 代理人: | 張亞輝 |
| 地址: | 610096 四川省成都市(四川)自*** | 國(guó)省代碼: | 四川;51 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 語音 過濾 方法 裝置 電子設(shè)備 存儲(chǔ) 介質(zhì) | ||
本申請(qǐng)涉及一種語音過濾方法、裝置、電子設(shè)備及存儲(chǔ)介質(zhì),該方法包括:根據(jù)語音對(duì)齊序列對(duì)目標(biāo)語音的韻律向量執(zhí)行對(duì)齊操作,以得到多組對(duì)齊向量,所述語音對(duì)齊序列為對(duì)所述目標(biāo)語音進(jìn)行音素劃分得到的序列;獲取每組所述對(duì)齊向量的隱藏狀態(tài),并對(duì)所述隱藏狀態(tài)進(jìn)行降采樣得到降采樣向量;對(duì)所述降采樣向量進(jìn)行重建,以得到與所述韻律向量長(zhǎng)度一致的過濾韻律向量,所述過濾韻律向量用于對(duì)所述目標(biāo)語音進(jìn)行語音轉(zhuǎn)換。引入語音對(duì)齊序列對(duì)韻律向量進(jìn)行對(duì)齊,同時(shí),使用攜帶多個(gè)向量的隱藏信息進(jìn)行重建,以得到對(duì)過濾韻律向量,克服了隨機(jī)向量進(jìn)行重建的選擇的不足,在對(duì)目標(biāo)語音的韻律向量進(jìn)行過濾的同時(shí),保留了足夠的韻律信息。
技術(shù)領(lǐng)域
本申請(qǐng)涉及語音轉(zhuǎn)換技術(shù)領(lǐng)域,尤其涉及一種語音過濾方法、裝置、電子設(shè)備及存儲(chǔ)介質(zhì)。
背景技術(shù)
隨著深度學(xué)習(xí)技術(shù)的不斷發(fā)展,基于神經(jīng)網(wǎng)絡(luò)的語音轉(zhuǎn)換(Voice Conversion,VC)技術(shù)也愈加成熟。語音轉(zhuǎn)換是指通過改變與源說話人個(gè)性特征有關(guān)的聲學(xué)特征參數(shù),使之聽起來像是目標(biāo)說話人的語音,而其中的語義是不發(fā)生變化的,但是,目前語音轉(zhuǎn)換技術(shù)存在一個(gè)重要缺陷,無法對(duì)原語音的表現(xiàn)力的進(jìn)行保留,但是表現(xiàn)力在語音轉(zhuǎn)換技術(shù)中又是特別重要的。相關(guān)技術(shù)中,在語音轉(zhuǎn)換技術(shù)中通過直接將原始語音的梅爾譜作為韻律模塊,用于提升模型的表現(xiàn)力,相關(guān)技術(shù)存在一個(gè)較大的缺陷,從原始語音提取的韻律向量中包含了冗余信息,例如,噪音信息、內(nèi)容信息和說話人信息,導(dǎo)致根據(jù)該韻律向量進(jìn)行語音轉(zhuǎn)換時(shí),影響語音轉(zhuǎn)換的效果。
發(fā)明內(nèi)容
本申請(qǐng)?zhí)峁┝艘环N語音過濾方法、裝置、電子設(shè)備及存儲(chǔ)介質(zhì),以解決相關(guān)技術(shù)中,韻律向量中含有冗余信息,導(dǎo)致在進(jìn)行語音轉(zhuǎn)換時(shí),語音轉(zhuǎn)換效果差的問題。
第一方面,本申請(qǐng)?zhí)峁┝艘环N語音過濾方法,所述韻律參數(shù)獲取方法,包括:根據(jù)語音對(duì)齊序列對(duì)目標(biāo)語音的韻律向量執(zhí)行對(duì)齊操作,以得到多組對(duì)齊向量,所述語音對(duì)齊序列為對(duì)所述目標(biāo)語音進(jìn)行音素劃分得到的序列;獲取每組所述對(duì)齊向量的狀態(tài)向量,并對(duì)所述狀態(tài)向量進(jìn)行降采樣得到降采樣向量;對(duì)所述降采樣向量進(jìn)行重建,以得到與所述韻律向量長(zhǎng)度一致的過濾韻律向量,所述過濾韻律向量用于對(duì)所述目標(biāo)語音進(jìn)行語音轉(zhuǎn)換。
可選的,所述根據(jù)語音對(duì)齊序列對(duì)目標(biāo)語音的韻律向量執(zhí)行對(duì)齊操作,以得到多組對(duì)齊向量,包括:獲取所述語音對(duì)齊序列中劃分的音素劃分值;根據(jù)所述音素劃分值對(duì)所述韻律向量進(jìn)行劃分,以得到多組所述對(duì)齊向量。
可選的,所述獲取所述語音對(duì)齊序列中劃分的音素劃分值之前,所述方法還包括:將所述目標(biāo)語音輸入到預(yù)訓(xùn)練音素獲取模型中,所述預(yù)訓(xùn)練音素獲取模型通過語音訓(xùn)練集進(jìn)行訓(xùn)練得到,所述語音訓(xùn)練集中包含了對(duì)語音進(jìn)行標(biāo)注的音素,所述預(yù)訓(xùn)練音素獲取模型用于獲取所述目標(biāo)語音的音素;獲取所述預(yù)訓(xùn)練音素獲取模型輸出的音素;根據(jù)所述預(yù)訓(xùn)練音素獲取模型輸出的音素、所述目標(biāo)語音,對(duì)所述預(yù)訓(xùn)練音素獲取模型輸出的音素進(jìn)行劃分,以得到所述語音對(duì)齊序列,所述語音對(duì)齊序列中包括對(duì)所述音素進(jìn)行劃分得到的所述音素劃分值。
可選的,所述獲取每組所述對(duì)齊向量的狀態(tài)向量,包括:將多組所述對(duì)齊向量依次輸入用于獲取隱藏狀態(tài)的門控循環(huán)單元模型中,以依次獲取多組所述對(duì)齊向量中各個(gè)向量對(duì)應(yīng)的所述隱藏狀態(tài),并將所述隱藏狀態(tài)作為所述狀態(tài)向量,所述對(duì)齊向量中后一向量對(duì)應(yīng)的隱藏狀態(tài)包括前一向量的信息。
可選的,所述對(duì)所述狀態(tài)向量進(jìn)行降采樣得到降采樣向量,包括:獲取每組所述對(duì)齊向量中尾部向量對(duì)應(yīng)的所述狀態(tài)向量;將獲取的所述狀態(tài)向量作為所述降采樣向量,所述降采樣向量用于重建得到所述過濾韻律向量。
可選的,所述對(duì)所述降采樣向量進(jìn)行重建,以得到與所述韻律向量長(zhǎng)度一致的過濾韻律向量,包括:獲取所述降采樣向量對(duì)應(yīng)的對(duì)齊向量中包含的向量數(shù);根據(jù)所述向量數(shù)對(duì)所述降采樣向量進(jìn)行復(fù)制,以得到與所述韻律向量長(zhǎng)度一致的過濾韻律向量。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于成都愛奇藝智能創(chuàng)新科技有限公司,未經(jīng)成都愛奇藝智能創(chuàng)新科技有限公司許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202111665116.3/2.html,轉(zhuǎn)載請(qǐng)聲明來源鉆瓜專利網(wǎng)。
- 一種數(shù)據(jù)庫讀寫分離的方法和裝置
- 一種手機(jī)動(dòng)漫人物及背景創(chuàng)作方法
- 一種通訊綜合測(cè)試終端的測(cè)試方法
- 一種服裝用人體測(cè)量基準(zhǔn)點(diǎn)的獲取方法
- 系統(tǒng)升級(jí)方法及裝置
- 用于虛擬和接口方法調(diào)用的裝置和方法
- 線程狀態(tài)監(jiān)控方法、裝置、計(jì)算機(jī)設(shè)備和存儲(chǔ)介質(zhì)
- 一種JAVA智能卡及其虛擬機(jī)組件優(yōu)化方法
- 檢測(cè)程序中方法耗時(shí)的方法、裝置及存儲(chǔ)介質(zhì)
- 函數(shù)的執(zhí)行方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)





