[發(fā)明專利]一種深度混合生成網(wǎng)絡(luò)自適應(yīng)方法及系統(tǒng)有效
| 申請(qǐng)?zhí)枺?/td> | 201810054314.8 | 申請(qǐng)日: | 2018-01-19 |
| 公開(公告)號(hào): | CN108417207B | 公開(公告)日: | 2020-06-30 |
| 發(fā)明(設(shè)計(jì))人: | 錢彥旻;丁文;譚天 | 申請(qǐng)(專利權(quán))人: | 蘇州思必馳信息科技有限公司;上海交通大學(xué) |
| 主分類號(hào): | G10L15/065 | 分類號(hào): | G10L15/065 |
| 代理公司: | 北京商專永信知識(shí)產(chǎn)權(quán)代理事務(wù)所(普通合伙) 11400 | 代理人: | 方挺;車江華 |
| 地址: | 215123 江蘇省蘇州市蘇*** | 國(guó)省代碼: | 江蘇;32 |
| 權(quán)利要求書: | 查看更多 | 說(shuō)明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 深度 混合 生成 網(wǎng)絡(luò) 自適應(yīng) 方法 系統(tǒng) | ||
1.一種深度混合生成網(wǎng)絡(luò)自適應(yīng)方法,所述深度混合生成網(wǎng)絡(luò)由高斯混合模型替換深度神經(jīng)網(wǎng)絡(luò)的輸出層構(gòu)成,所述方法包括:
從訓(xùn)練數(shù)據(jù)集中獲取的訓(xùn)練音頻數(shù)據(jù)和相應(yīng)于所述訓(xùn)練音頻數(shù)據(jù)的訓(xùn)練文本數(shù)據(jù)分別作為輸入和輸出,來(lái)訓(xùn)練所述深度混合生成網(wǎng)絡(luò),以從所述高斯混合模型中獲取全局音素均值;其中,所述訓(xùn)練音頻數(shù)據(jù)為輸入,所述訓(xùn)練文本數(shù)據(jù)為輸出;
將說(shuō)話者的注冊(cè)音頻數(shù)據(jù)輸入至訓(xùn)練后的深度混合生成網(wǎng)絡(luò),并從所述高斯混合模型中獲取所述說(shuō)話者的說(shuō)話者音素均值;
為所述高斯混合模型中的全局音素均值配置初始自適應(yīng)轉(zhuǎn)化矩陣;
將所述注冊(cè)音頻數(shù)據(jù)輸入至訓(xùn)練后的深度混合生成網(wǎng)絡(luò),以獲取相應(yīng)于所述注冊(cè)音頻數(shù)據(jù)的似然度和識(shí)別出的文本數(shù)據(jù);
基于所述似然度確定相應(yīng)于所述注冊(cè)音頻數(shù)據(jù)的后驗(yàn)概率;
對(duì)所述識(shí)別出的文本數(shù)據(jù)進(jìn)行強(qiáng)制對(duì)齊以得到標(biāo)注信息;
最小化所述后驗(yàn)概率和標(biāo)注信息之間的交叉熵為標(biāo)準(zhǔn)來(lái)調(diào)整所述初始自適應(yīng)轉(zhuǎn)化矩陣以得到自適應(yīng)轉(zhuǎn)化矩陣;
基于所述自適應(yīng)轉(zhuǎn)化矩陣調(diào)整所述高斯混合模型以實(shí)現(xiàn)所述深度混合生成網(wǎng)絡(luò)的自適應(yīng)。
2.根據(jù)權(quán)利要求1所述的方法,其中,所述深度混合生成網(wǎng)絡(luò)包括設(shè)置與所述深度神經(jīng)網(wǎng)絡(luò)和所述高斯混合模型之間的線性瓶頸層。
3.一種深度混合生成網(wǎng)絡(luò)自適應(yīng)系統(tǒng),所述深度混合生成網(wǎng)絡(luò)由高斯混合模型替換深度神經(jīng)網(wǎng)絡(luò)的輸出層構(gòu)成,所述系統(tǒng)包括:
全局音素均值獲取程序模塊,用于從訓(xùn)練數(shù)據(jù)集中獲取的訓(xùn)練音頻數(shù)據(jù)和相應(yīng)于所述訓(xùn)練音頻數(shù)據(jù)的訓(xùn)練文本數(shù)據(jù)分別作為輸入和輸出,來(lái)訓(xùn)練所述深度混合生成網(wǎng)絡(luò),以從所述高斯混合模型中獲取全局音素均值;其中,所述訓(xùn)練音頻數(shù)據(jù)為輸入,所述訓(xùn)練文本數(shù)據(jù)為輸出;
說(shuō)話者音素均值獲取程序模塊,用于將說(shuō)話者的注冊(cè)音頻數(shù)據(jù)輸入至訓(xùn)練后的深度混合生成網(wǎng)絡(luò),并從所述高斯混合模型中獲取所述說(shuō)話者的說(shuō)話者音素均值;
初始轉(zhuǎn)換矩陣配置程序單元,用于為所述高斯混合模型中的全局音素均值配置初始自適應(yīng)轉(zhuǎn)化矩陣;
音頻數(shù)據(jù)輸入程序單元,用于將所述注冊(cè)音頻數(shù)據(jù)輸入至訓(xùn)練后的深度混合生成網(wǎng)絡(luò),以獲取相應(yīng)于所述注冊(cè)音頻數(shù)據(jù)的似然度和識(shí)別出的文本數(shù)據(jù);
后驗(yàn)概率確定程序單元,用于基于所述似然度確定相應(yīng)于所述注冊(cè)音頻數(shù)據(jù)的后驗(yàn)概率;
強(qiáng)制對(duì)齊程序單元,用于對(duì)所述識(shí)別出的文本數(shù)據(jù)進(jìn)行強(qiáng)制對(duì)齊以得到標(biāo)注信息;
轉(zhuǎn)化矩陣確定程序單元,用于最小化所述后驗(yàn)概率和標(biāo)注信息之間的交叉熵為標(biāo)準(zhǔn)來(lái)調(diào)整所述初始自適應(yīng)轉(zhuǎn)化矩陣以得到自適應(yīng)轉(zhuǎn)化矩陣;
網(wǎng)絡(luò)自適應(yīng)調(diào)整程序模塊,用于基于所述自適應(yīng)轉(zhuǎn)化矩陣調(diào)整所述高斯混合模型以實(shí)現(xiàn)所述深度混合生成網(wǎng)絡(luò)的自適應(yīng)。
4.根據(jù)權(quán)利要求3所述的系統(tǒng),其中,所述深度混合生成網(wǎng)絡(luò)包括設(shè)置與所述深度神經(jīng)網(wǎng)絡(luò)和所述高斯混合模型之間的線性瓶頸層。
5.一種電子設(shè)備,其包括:至少一個(gè)處理器,以及與所述至少一個(gè)處理器通信連接的存儲(chǔ)器,其中,所述存儲(chǔ)器存儲(chǔ)有可被所述至少一個(gè)處理器執(zhí)行的指令,所述指令被所述至少一個(gè)處理器執(zhí)行,以使所述至少一個(gè)處理器能夠執(zhí)行權(quán)利要求1-2中任意一項(xiàng)所述方法的步驟。
6.一種存儲(chǔ)介質(zhì),其上存儲(chǔ)有計(jì)算機(jī)程序,其特征在于,該程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)權(quán)利要求1-2中任意一項(xiàng)所述方法的步驟。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于蘇州思必馳信息科技有限公司;上海交通大學(xué),未經(jīng)蘇州思必馳信息科技有限公司;上海交通大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810054314.8/1.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專利網(wǎng)。
- 網(wǎng)絡(luò)和網(wǎng)絡(luò)終端
- 網(wǎng)絡(luò)DNA
- 網(wǎng)絡(luò)地址自適應(yīng)系統(tǒng)和方法及應(yīng)用系統(tǒng)和方法
- 網(wǎng)絡(luò)系統(tǒng)及網(wǎng)絡(luò)至網(wǎng)絡(luò)橋接器
- 一種電力線網(wǎng)絡(luò)中根節(jié)點(diǎn)網(wǎng)絡(luò)協(xié)調(diào)方法和系統(tǒng)
- 一種多網(wǎng)絡(luò)定位方法、存儲(chǔ)介質(zhì)及移動(dòng)終端
- 網(wǎng)絡(luò)裝置、網(wǎng)絡(luò)系統(tǒng)、網(wǎng)絡(luò)方法以及網(wǎng)絡(luò)程序
- 從重復(fù)網(wǎng)絡(luò)地址自動(dòng)恢復(fù)的方法、網(wǎng)絡(luò)設(shè)備及其存儲(chǔ)介質(zhì)
- 神經(jīng)網(wǎng)絡(luò)的訓(xùn)練方法、裝置及存儲(chǔ)介質(zhì)
- 網(wǎng)絡(luò)管理方法和裝置





