[發(fā)明專利]語音識別模型的數(shù)據(jù)處理系統(tǒng)及方法、語音識別方法在審
| 申請?zhí)枺?/td> | 202211329674.7 | 申請日: | 2022-10-27 |
| 公開(公告)號: | CN115762489A | 公開(公告)日: | 2023-03-07 |
| 發(fā)明(設(shè)計)人: | 周曉歡;周暢 | 申請(專利權(quán))人: | 阿里巴巴達摩院(杭州)科技有限公司 |
| 主分類號: | G10L15/06 | 分類號: | G10L15/06;G10L15/26 |
| 代理公司: | 北京智信禾專利代理有限公司 11637 | 代理人: | 金鵬 |
| 地址: | 310023 浙江省杭州市余杭*** | 國省代碼: | 浙江;33 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 語音 識別 模型 數(shù)據(jù)處理系統(tǒng) 方法 | ||
1.一種語音識別模型的數(shù)據(jù)處理系統(tǒng),包括:
云側(cè)設(shè)備,用于獲取樣本集,其中,所述樣本集包括多個樣本對,所述樣本對包括樣本語音數(shù)據(jù)和樣本中文文本;利用編碼器對所述樣本語音數(shù)據(jù)進行編碼,獲得所述樣本語音數(shù)據(jù)的語音特征,其中,所述編碼器基于對預(yù)訓(xùn)練語音數(shù)據(jù)執(zhí)行中文發(fā)音單元預(yù)測任務(wù)進行預(yù)訓(xùn)練;將所述語音特征輸入解碼器,獲得預(yù)測中文文本,其中,所述解碼器基于對預(yù)訓(xùn)練中文發(fā)音單元執(zhí)行文本預(yù)測任務(wù)進行預(yù)訓(xùn)練;基于所述預(yù)測中文文本和所述樣本中文文本,對包括所述編碼器和所述解碼器的模型進行預(yù)訓(xùn)練,在達到預(yù)訓(xùn)練停止條件的情況下,獲取預(yù)訓(xùn)練得到的語音識別模型的模型參數(shù);
所述云側(cè)設(shè)備,還用于向端側(cè)設(shè)備發(fā)送所述預(yù)訓(xùn)練得到的語音識別模型的模型參數(shù);
所述端側(cè)設(shè)備,用于利用所述語音識別模型對待識別語音數(shù)據(jù)進行語音識別,獲得所述待識別語音數(shù)據(jù)對應(yīng)的目標(biāo)文本。
2.根據(jù)權(quán)利要求1所述的數(shù)據(jù)處理系統(tǒng),所述云側(cè)設(shè)備,還用于:
獲取第一預(yù)訓(xùn)練語音集,其中,所述第一預(yù)訓(xùn)練語音集包括多個無監(jiān)督的第一預(yù)訓(xùn)練語音數(shù)據(jù);
利用編碼器,對所述第一預(yù)訓(xùn)練語音數(shù)據(jù)進行編碼,獲得所述第一預(yù)訓(xùn)練語音數(shù)據(jù)對應(yīng)的第一語音特征,基于所述第一語音特征確定第一發(fā)音單元;
對所述第一預(yù)訓(xùn)練語音數(shù)據(jù)進行掩碼處理;
利用所述編碼器,對掩碼處理后的第一預(yù)訓(xùn)練語音數(shù)據(jù)進行編碼,獲得掩碼處理后的第一預(yù)訓(xùn)練語音數(shù)據(jù)對應(yīng)的第二語音特征,基于所述第二語音特征確定第二發(fā)音單元;
基于所述第一預(yù)訓(xùn)練語音數(shù)據(jù)對應(yīng)的第一發(fā)音單元和第二發(fā)音單元,對所述編碼器進行預(yù)訓(xùn)練。
3.根據(jù)權(quán)利要求2所述的數(shù)據(jù)處理系統(tǒng),所述云側(cè)設(shè)備,具體用于:
提取所述第一預(yù)訓(xùn)練語音數(shù)據(jù)的頻譜特征;
將所述第一預(yù)訓(xùn)練語音數(shù)據(jù)的頻譜特征輸入編碼器,獲得所述第一預(yù)訓(xùn)練語音數(shù)據(jù)對應(yīng)的第一語音特征。
4.根據(jù)權(quán)利要求2所述的數(shù)據(jù)處理系統(tǒng),所述云側(cè)設(shè)備,還用于:
獲取多個第一預(yù)訓(xùn)練對,其中,所述第一預(yù)訓(xùn)練對包括第二預(yù)訓(xùn)練語音數(shù)據(jù)和第一預(yù)訓(xùn)練中文發(fā)音單元;
利用所述編碼器,對所述第二預(yù)訓(xùn)練語音數(shù)據(jù)進行中文發(fā)音單元預(yù)測,獲得所述第二預(yù)訓(xùn)練語音數(shù)據(jù)對應(yīng)的預(yù)測中文發(fā)音單元;
基于所述第一預(yù)訓(xùn)練中文發(fā)音單元和預(yù)測中文發(fā)音單元,對所述編碼器進行預(yù)訓(xùn)練。
5.根據(jù)權(quán)利要求1所述的數(shù)據(jù)處理系統(tǒng),所述編碼器包括特征編碼層;所述云側(cè)設(shè)備,還用于:
獲取第一預(yù)訓(xùn)練文本集,其中,所述第一預(yù)訓(xùn)練文本集包括多個無監(jiān)督的第一預(yù)訓(xùn)練中文文本;
將所述第一預(yù)訓(xùn)練中文文本轉(zhuǎn)換為第二預(yù)訓(xùn)練中文發(fā)音單元,將所述第二預(yù)訓(xùn)練中文發(fā)音單元輸入所述特征編碼層,獲得所述第二預(yù)訓(xùn)練中文發(fā)音單元的語音特征;
將所述第二預(yù)訓(xùn)練中文發(fā)音單元的語音特征輸入解碼器,獲得所述第二預(yù)訓(xùn)練中文發(fā)音單元對應(yīng)的預(yù)測中文文本;
基于所述第二預(yù)訓(xùn)練中文發(fā)音單元對應(yīng)的預(yù)測中文文本與所述第一預(yù)訓(xùn)練中文文本,對所述解碼器進行預(yù)訓(xùn)練。
6.根據(jù)權(quán)利要求1所述的數(shù)據(jù)處理系統(tǒng),所述云側(cè)設(shè)備,還用于:
獲取第二預(yù)訓(xùn)練語音集,其中,所述第二預(yù)訓(xùn)練語音集包括多個第三預(yù)訓(xùn)練語音數(shù)據(jù),所述第三預(yù)訓(xùn)練語音數(shù)據(jù)攜帶目標(biāo)偽標(biāo)簽;
利用所述編碼器對所述第三預(yù)訓(xùn)練語音數(shù)據(jù)進行編碼,獲得所述第三預(yù)訓(xùn)練語音數(shù)據(jù)的語音特征;
將所述第三預(yù)訓(xùn)練語音數(shù)據(jù)的語音特征輸入所述解碼器,得到所述第三預(yù)訓(xùn)練語音數(shù)據(jù)對應(yīng)的預(yù)測偽標(biāo)簽;
基于所述目標(biāo)偽標(biāo)簽和預(yù)測偽標(biāo)簽,對所述解碼器進行預(yù)訓(xùn)練。
7.根據(jù)權(quán)利要求6所述的數(shù)據(jù)處理系統(tǒng),所述云側(cè)設(shè)備,具體用于:
獲取多個無監(jiān)督的第三預(yù)訓(xùn)練語音數(shù)據(jù);
將所述多個第三預(yù)訓(xùn)練語音數(shù)據(jù)輸入預(yù)訓(xùn)練的語音編碼器,獲得所述多個第三預(yù)訓(xùn)練語音數(shù)據(jù)的語音特征;
對所述多個第三預(yù)訓(xùn)練語音數(shù)據(jù)的語音特征進行聚類,獲得各第三預(yù)訓(xùn)練語音數(shù)據(jù)的目標(biāo)偽標(biāo)簽。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于阿里巴巴達摩院(杭州)科技有限公司,未經(jīng)阿里巴巴達摩院(杭州)科技有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202211329674.7/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 在數(shù)據(jù)處理系統(tǒng)中基于所需電池壽命的計算機電源管理
- 在網(wǎng)絡(luò)數(shù)據(jù)處理系統(tǒng)中安裝軟件的方法和系統(tǒng)
- 遠程數(shù)據(jù)處理系統(tǒng)的配置
- 多個子據(jù)處理系統(tǒng)之間在線切換的方法
- 跨境多幣種數(shù)據(jù)處理系統(tǒng)和方法
- 用于批量和實時數(shù)據(jù)處理的設(shè)備、系統(tǒng)和方法
- 動態(tài)地調(diào)整品牌和平臺界面元素
- 基于銀行卡交易的數(shù)據(jù)處理方法以及數(shù)據(jù)處理系統(tǒng)
- 數(shù)據(jù)處理方法、裝置和設(shè)備
- 用于批量和實時數(shù)據(jù)處理的設(shè)備、系統(tǒng)和方法





