[發(fā)明專利]一種基于音素的口語評(píng)測(cè)方法、裝置及電子設(shè)備有效
| 申請(qǐng)?zhí)枺?/td> | 202110441338.0 | 申請(qǐng)日: | 2021-04-23 |
| 公開(公告)號(hào): | CN112863486B | 公開(公告)日: | 2021-07-23 |
| 發(fā)明(設(shè)計(jì))人: | 龐永強(qiáng);袁佳藝;王丹;汪巍;丁文雪;莫貴明;楊熙;饒豐 | 申請(qǐng)(專利權(quán))人: | 北京一起教育科技有限責(zé)任公司 |
| 主分類號(hào): | G10L15/01 | 分類號(hào): | G10L15/01;G10L15/02;G10L15/06;G10L15/10 |
| 代理公司: | 北京集佳知識(shí)產(chǎn)權(quán)代理有限公司 11227 | 代理人: | 李偉 |
| 地址: | 100032 北京市西*** | 國(guó)省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 音素 口語 評(píng)測(cè) 方法 裝置 電子設(shè)備 | ||
本發(fā)明提供了一種基于音素的口語評(píng)測(cè)方法、裝置及電子設(shè)備,其中,該方法包括:設(shè)置評(píng)測(cè)模型;對(duì)編碼子模型和對(duì)齊輸出子模型進(jìn)行訓(xùn)練,之后,在保持編碼子模型不變的情況下,對(duì)識(shí)別輸出子模型進(jìn)行訓(xùn)練;將目標(biāo)語音數(shù)據(jù)輸入至評(píng)測(cè)模型,確定目標(biāo)語音數(shù)據(jù)的特征向量和音素對(duì)齊信息,并基于識(shí)別輸出子模型確定目標(biāo)語音數(shù)據(jù)中每個(gè)音素的識(shí)別結(jié)果;根據(jù)標(biāo)準(zhǔn)答案和目標(biāo)語音數(shù)據(jù)中每個(gè)音素的識(shí)別結(jié)果確定目標(biāo)語音數(shù)據(jù)的評(píng)測(cè)結(jié)果。通過本發(fā)明實(shí)施例提供的基于音素的口語評(píng)測(cè)方法、裝置及電子設(shè)備,可以學(xué)習(xí)到海量數(shù)據(jù)的特征,音素對(duì)齊效果較好;并且不需要大量的優(yōu)質(zhì)數(shù)據(jù),有效解決了訓(xùn)練過程中優(yōu)質(zhì)數(shù)據(jù)量不夠的問題。
技術(shù)領(lǐng)域
本發(fā)明涉及語音識(shí)別技術(shù)領(lǐng)域,具體而言,涉及一種基于音素的口語評(píng)測(cè)方法、裝置、電子設(shè)備及計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)。
背景技術(shù)
語音評(píng)測(cè)是K12(kindergarten through twelfth grade,指的是學(xué)前教育至高中教育)在線教育場(chǎng)景中的重要場(chǎng)景,通過在線進(jìn)行語音評(píng)測(cè),可以有效的提升學(xué)生的口語水平。而音素發(fā)音評(píng)價(jià)作為發(fā)音的重要評(píng)價(jià)細(xì)節(jié),對(duì)口語打分的準(zhǔn)確性起著至關(guān)重要的作用。因此,音素顆粒打分的準(zhǔn)確度不僅對(duì)總分的評(píng)估起著重要的作用,還在教學(xué)中學(xué)生發(fā)音細(xì)節(jié)的糾正發(fā)揮著重要作用。
目前常見的口語評(píng)測(cè)中,音素發(fā)音的評(píng)估大多以聲學(xué)模型的音素似然概率作為音素評(píng)估的基本特征進(jìn)行打分。比如使用語音特征強(qiáng)制對(duì)齊后的每個(gè)音素的似然概率,根據(jù)音素的似然概率和專家打分訓(xùn)練一個(gè)基于SVM(Support Vector Machine,支持向量機(jī))的評(píng)分模型,以保證機(jī)器評(píng)分與專家評(píng)分的差異。或者,基于LSTM(Long Short-Term Memory,長(zhǎng)短期記憶網(wǎng)絡(luò))進(jìn)行聲學(xué)模型建模,LSTM產(chǎn)生的似然概率和專家打分,使用人工神經(jīng)網(wǎng)絡(luò)訓(xùn)練一個(gè)打分模型。或者,將音素作為語言學(xué)習(xí)的一種發(fā)音顆粒度檢測(cè),以幫助提升用戶的口語水平。
當(dāng)前的口語評(píng)測(cè)方法對(duì)音素的區(qū)分或?qū)R表現(xiàn)欠佳,評(píng)測(cè)效果一般。
發(fā)明內(nèi)容
為解決現(xiàn)有存在的技術(shù)問題,本發(fā)明實(shí)施例提供一種基于音素的口語評(píng)測(cè)方法、裝置、電子設(shè)備及計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)。
第一方面,本發(fā)明實(shí)施例提供了一種基于音素的口語評(píng)測(cè)方法,包括:
設(shè)置評(píng)測(cè)模型,所述評(píng)測(cè)模型包括編碼子模型、對(duì)齊輸出子模型和識(shí)別輸出子模型;所述編碼子模型用于將輸入數(shù)據(jù)編碼為特征向量,所述對(duì)齊輸出子模型用于根據(jù)所述特征向量確定相應(yīng)的音素對(duì)齊信息,所述識(shí)別輸出子模型用于根據(jù)所述特征向量和所述音素對(duì)齊信息確定所述輸入數(shù)據(jù)中每個(gè)音素的識(shí)別結(jié)果;
對(duì)所述編碼子模型和所述對(duì)齊輸出子模型進(jìn)行訓(xùn)練,之后,在保持所述編碼子模型不變的情況下,對(duì)所述識(shí)別輸出子模型進(jìn)行訓(xùn)練,確定訓(xùn)練后的評(píng)測(cè)模型;
獲取待識(shí)別的目標(biāo)語音數(shù)據(jù)以及與所述目標(biāo)語音數(shù)據(jù)對(duì)應(yīng)的跟讀文本,將所述目標(biāo)語音數(shù)據(jù)輸入至所述評(píng)測(cè)模型,確定所述目標(biāo)語音數(shù)據(jù)的特征向量和音素對(duì)齊信息,并基于所述識(shí)別輸出子模型確定所述目標(biāo)語音數(shù)據(jù)中每個(gè)音素的識(shí)別結(jié)果;
根據(jù)所述跟讀文本和所述目標(biāo)語音數(shù)據(jù)中每個(gè)音素的識(shí)別結(jié)果確定所述目標(biāo)語音數(shù)據(jù)的評(píng)測(cè)結(jié)果。
第二方面,本發(fā)明實(shí)施例還提供了一種基于音素的口語評(píng)測(cè)裝置,包括:
模型設(shè)置模塊,用于設(shè)置評(píng)測(cè)模型,所述評(píng)測(cè)模型包括編碼子模型、對(duì)齊輸出子模型和識(shí)別輸出子模型;所述編碼子模型用于將輸入數(shù)據(jù)編碼為特征向量,所述對(duì)齊輸出子模型用于根據(jù)所述特征向量確定相應(yīng)的音素對(duì)齊信息,所述識(shí)別輸出子模型用于根據(jù)所述特征向量和所述音素對(duì)齊信息確定所述輸入數(shù)據(jù)中每個(gè)音素的識(shí)別結(jié)果;
訓(xùn)練模塊,用于對(duì)所述編碼子模型和所述對(duì)齊輸出子模型進(jìn)行訓(xùn)練,之后,在保持所述編碼子模型不變的情況下,對(duì)所述識(shí)別輸出子模型進(jìn)行訓(xùn)練,確定訓(xùn)練后的評(píng)測(cè)模型;
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于北京一起教育科技有限責(zé)任公司,未經(jīng)北京一起教育科技有限責(zé)任公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110441338.0/2.html,轉(zhuǎn)載請(qǐng)聲明來源鉆瓜專利網(wǎng)。
- 上一篇:一種加氫系統(tǒng)及吹氣方法
- 下一篇:一種飛機(jī)完全隔氧燃油箱
- 通過基本音素合成英文單字的語音數(shù)據(jù)的系統(tǒng)及方法
- 音素誤標(biāo)注的檢測(cè)方法和裝置
- 一種音素評(píng)分的確定方法及系統(tǒng)
- 語音數(shù)據(jù)處理方法和裝置及電子裝置
- 語譜圖匹配方法、裝置、設(shè)備及計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)
- 發(fā)音插入錯(cuò)誤檢測(cè)方法、裝置、電子設(shè)備及存儲(chǔ)介質(zhì)
- 一種發(fā)音檢測(cè)方法、裝置、計(jì)算機(jī)設(shè)備和存儲(chǔ)介質(zhì)
- 錯(cuò)誤音素識(shí)別方法及裝置
- 一種音頻質(zhì)量評(píng)估方法及裝置
- 一種音頻處理方法、裝置、設(shè)備及介質(zhì)
- 轉(zhuǎn)換文本的方法和設(shè)備
- 轉(zhuǎn)換文本的方法和設(shè)備
- 個(gè)性化外語口語學(xué)習(xí)系統(tǒng)及方法
- 終端及其口語學(xué)習(xí)方法
- 一種口語測(cè)評(píng)方法、裝置及一種生成口語測(cè)評(píng)模型的裝置
- 口語發(fā)音評(píng)測(cè)方法、裝置、設(shè)備及存儲(chǔ)設(shè)備
- 口語練習(xí)輔助方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)
- 文本處理方法、裝置及計(jì)算設(shè)備
- 一種口語測(cè)評(píng)貼紙的獲取方法、終端設(shè)備及存儲(chǔ)介質(zhì)
- 口語信息處理方法、裝置和電子設(shè)備
- 一種操作系統(tǒng)安全功能評(píng)測(cè)方法及系統(tǒng)
- IP核質(zhì)量自動(dòng)評(píng)測(cè)方法和系統(tǒng)
- 一種物品評(píng)測(cè)方法及裝置
- 處理器性能評(píng)測(cè)比較方法、裝置、計(jì)算機(jī)設(shè)備和存儲(chǔ)介質(zhì)
- 一種數(shù)據(jù)評(píng)測(cè)方法、裝置、設(shè)備及可讀存儲(chǔ)介質(zhì)
- 智能評(píng)測(cè)設(shè)備及系統(tǒng)
- 一種性能信息獲取方法、裝置及存儲(chǔ)介質(zhì)
- 一種語音識(shí)別的評(píng)測(cè)方法及系統(tǒng)
- 一種基于區(qū)塊鏈的安卓軟件評(píng)測(cè)方法及設(shè)備、介質(zhì)
- 智能評(píng)測(cè)設(shè)備及系統(tǒng)





