[發(fā)明專利]基于自回歸網(wǎng)絡(luò)的非平行語料語音轉(zhuǎn)換方法及系統(tǒng)有效
| 申請?zhí)枺?/td> | 202011161519.X | 申請日: | 2020-10-27 |
| 公開(公告)號: | CN112331183B | 公開(公告)日: | 2022-03-18 |
| 發(fā)明(設(shè)計)人: | 連政;溫正棋 | 申請(專利權(quán))人: | 中科極限元(杭州)智能科技股份有限公司 |
| 主分類號: | G10L15/02 | 分類號: | G10L15/02;G10L13/02 |
| 代理公司: | 杭州浙科專利事務(wù)所(普通合伙) 33213 | 代理人: | 楊小凡 |
| 地址: | 310016 浙江省杭州市*** | 國省代碼: | 浙江;33 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 基于 回歸 網(wǎng)絡(luò) 平行 語料 語音 轉(zhuǎn)換 方法 系統(tǒng) | ||
1.基于自回歸網(wǎng)絡(luò)的非平行語料語音轉(zhuǎn)換方法,其特征在于包括如下步驟:
S1,音素后驗概率抽取,利用預(yù)先訓(xùn)練好的說話人無關(guān)的語音識別模型,從輸入語音中抽取音素后驗概率特征,作為文本特征表示;
S2,編碼階段,利用卷積神經(jīng)網(wǎng)絡(luò)和門控循環(huán)單元,捕獲音素后驗概率特征中的上下文信息,從而獲取融合上下文信息的文本特征表示;
S3,利用自適應(yīng)注意力機(jī)制,對當(dāng)前時刻的文本特征和上一時刻的聲學(xué)特征進(jìn)行融合,獲取增廣的特征表示;
S4,解碼階段,基于增廣的特征表示,采用長短時記憶網(wǎng)絡(luò)預(yù)測目標(biāo)說話人的聲學(xué)特征;
S5,語音生成,基于預(yù)測的目標(biāo)說話人的聲學(xué)特征,利用聲碼器合成語音。
2.如權(quán)利要求1所述的基于自回歸網(wǎng)絡(luò)的非平行語料語音轉(zhuǎn)換方法,其特征在于所述步驟S1,首先基于大規(guī)模語料,訓(xùn)練一套說話人無關(guān)的語音識別系統(tǒng),然后將待測語音輸入到語音識別系統(tǒng)中,獲取音素后驗概率,作為其文本特征表示。
3.如權(quán)利要求1所述的基于自回歸網(wǎng)絡(luò)的非平行語料語音轉(zhuǎn)換方法,其特征在于所述步驟S2,包括如下步驟:
S21,將從語音中抽取的音素后驗概率特征標(biāo)記為X=[x1,x2,…,xN],其中xi表示語音中第i幀的音素后驗概率;
S22,將X輸入到多層感知機(jī)中進(jìn)行特征變換:
X1=Dropout(XW1+b1)
X2=Dropout(X1W2+b2)
其中,W1,W2,b1,b2為可訓(xùn)練參數(shù);
S23,將X2輸入到多個一維卷積神經(jīng)網(wǎng)絡(luò)中,這些卷積神經(jīng)網(wǎng)絡(luò)的卷積核大小不同,從而能夠提取不同長度的上下文信息,然后將多個卷積神經(jīng)網(wǎng)絡(luò)的輸出結(jié)果堆疊起來,作為融合上下文信息的特征表示,操作標(biāo)記為ConυBank(*),X3=ConυBank(X2);
S24,將X3輸入到最大池化網(wǎng)絡(luò)中,獲取壓縮后的特征表示,操作標(biāo)記為MaxPooling(*),X4=MaxPooling(X3);
S25,將X4輸入到highway模塊,控制輸出信息,并緩解過擬合問題,公式如下:
H=ReLU(X4WH)
T=sigmoid(X4WT)
C=1-T
X5=H⊙T+X4⊙C
其中WH,WT為可訓(xùn)練參數(shù),ReLU(*)為線性整流函數(shù),sigmoid(*)將特征映射到(0,1),⊙為點乘操作,即矩陣元素按對應(yīng)位置相乘;
S26,將X5輸入到雙向門控循環(huán)單元網(wǎng)絡(luò)中,進(jìn)一步捕獲文本中的上下文信息,設(shè)X5=[f1,f2,…,fN],其中fj表示第j幀的特征表示:
其中表示正向門控循環(huán)單元的輸出,表示反向門控循環(huán)單元的輸出,每個方向的門控循環(huán)單元,將上一時刻的隱層狀態(tài)特征以及當(dāng)前時刻的輸入特征fj作為輸入信息,將正向門控循環(huán)單元的輸出和反向門控循環(huán)單元的輸出拼接起來,作為融合上下文信息的特征表示:
S27,將編碼階段輸出結(jié)果標(biāo)記為R=[r1,r2,…,rN]。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于中科極限元(杭州)智能科技股份有限公司,未經(jīng)中科極限元(杭州)智能科技股份有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011161519.X/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 網(wǎng)絡(luò)和網(wǎng)絡(luò)終端
- 網(wǎng)絡(luò)DNA
- 網(wǎng)絡(luò)地址自適應(yīng)系統(tǒng)和方法及應(yīng)用系統(tǒng)和方法
- 網(wǎng)絡(luò)系統(tǒng)及網(wǎng)絡(luò)至網(wǎng)絡(luò)橋接器
- 一種電力線網(wǎng)絡(luò)中根節(jié)點網(wǎng)絡(luò)協(xié)調(diào)方法和系統(tǒng)
- 一種多網(wǎng)絡(luò)定位方法、存儲介質(zhì)及移動終端
- 網(wǎng)絡(luò)裝置、網(wǎng)絡(luò)系統(tǒng)、網(wǎng)絡(luò)方法以及網(wǎng)絡(luò)程序
- 從重復(fù)網(wǎng)絡(luò)地址自動恢復(fù)的方法、網(wǎng)絡(luò)設(shè)備及其存儲介質(zhì)
- 神經(jīng)網(wǎng)絡(luò)的訓(xùn)練方法、裝置及存儲介質(zhì)
- 網(wǎng)絡(luò)管理方法和裝置





