[發(fā)明專利]一種口語評測方法及裝置在審
| 申請?zhí)枺?/td> | 202011208497.8 | 申請日: | 2020-11-03 |
| 公開(公告)號: | CN112331180A | 公開(公告)日: | 2021-02-05 |
| 發(fā)明(設(shè)計(jì))人: | 卓邦聲;吳凡;夏龍;高強(qiáng);王宏偉;郭常圳 | 申請(專利權(quán))人: | 北京猿力未來科技有限公司 |
| 主分類號: | G10L15/01 | 分類號: | G10L15/01;G10L15/08 |
| 代理公司: | 北京智信禾專利代理有限公司 11637 | 代理人: | 劉曉楠 |
| 地址: | 100102 北京市朝陽區(qū)廣順南大*** | 國省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 口語 評測 方法 裝置 | ||
本申請?zhí)峁┮环N口語評測方法及裝置,所述口語評測方法包括:獲取待評測音頻和所述待評測音頻對應(yīng)的評測文本;基于所述待評測音頻和所述評測文本確定所述評測文本中每個(gè)音素的屬性特征值和每個(gè)音素對應(yīng)的后驗(yàn)概率;基于所述評測文本和所述每個(gè)音素對應(yīng)的后驗(yàn)概率提取所述評測文本對應(yīng)的發(fā)音特征值;根據(jù)所述每個(gè)音素的屬性特征值和發(fā)音特征值生成每個(gè)音素對應(yīng)的特征向量;將所述每個(gè)音素對應(yīng)的特征向量輸入到口語評測模型,獲得所述口語評測模型輸出的評測結(jié)果,本申請?zhí)峁┑目谡Z評測方法,引入了每個(gè)音素對應(yīng)的發(fā)音特征值,可以準(zhǔn)確發(fā)掘當(dāng)前發(fā)音的潛在錯(cuò)誤,為口語評測模型提供了多維度的特征信息,提高了聲母韻母和聲調(diào)的判斷準(zhǔn)確率。
技術(shù)領(lǐng)域
本申請涉及語言識別技術(shù)領(lǐng)域,特別涉及一種口語評測方法及裝置、計(jì)算設(shè)備和計(jì)算機(jī)可讀存儲介質(zhì)。
背景技術(shù)
口語測評是指給定文本和音頻,利用語音識別技術(shù)從不同維度對一個(gè)人的口語水平進(jìn)行整體評價(jià),在口語測評領(lǐng)域中,通常根據(jù)文本-語音后的音素信息,計(jì)算文本中每個(gè)字、每個(gè)音素的發(fā)音良好度值(Goodness of Pronunciation)等特征,根據(jù)這些特征去判斷說話人的口語水平。
隨著自然語言處理(Natural Language Processing,NLP)的發(fā)展,深度神經(jīng)網(wǎng)絡(luò)模型(Deep Neural Network,DNN)可以將音頻轉(zhuǎn)換為幀級別的音素發(fā)音后驗(yàn)概率,基于此,基于神經(jīng)網(wǎng)絡(luò)的發(fā)音良好度(Neural Network-Goodness of Pronunciation,GOP-NN)定義為標(biāo)準(zhǔn)音素和后驗(yàn)概率最高的音素之間的對數(shù)音素后驗(yàn)概率比,二者的比值越接近與1,則GOP越接近于0,表示發(fā)音越好,但是現(xiàn)有技術(shù)的口語評測時(shí),只利用了音素的對齊信息和發(fā)音良好度,并沒有利用整字的信息,同時(shí)漢語拼音會涉及到的聲調(diào)間區(qū)分度不大、聲母韻母的先天差異不適用同一個(gè)標(biāo)準(zhǔn)進(jìn)行評判的問題,會導(dǎo)致現(xiàn)有的口語評測系統(tǒng)對不同音素的判斷會有差異、聲母韻母評分差距大和聲調(diào)判別準(zhǔn)確率低的問題。
基于此,亟需一種新的口語評測方法來解決上述問題。
發(fā)明內(nèi)容
有鑒于此,本申請實(shí)施例提供了一種口語評測方法及裝置、計(jì)算設(shè)備和計(jì)算機(jī)可讀存儲介質(zhì),以解決現(xiàn)有技術(shù)中存在的技術(shù)缺陷。
根據(jù)本申請實(shí)施例的第一方面,提供了一種口語評測方法,包括:
獲取待評測音頻和所述待評測音頻對應(yīng)的評測文本;
基于所述待評測音頻和所述評測文本確定所述評測文本中每個(gè)音素的屬性特征值和每個(gè)音素對應(yīng)的后驗(yàn)概率;
基于所述評測文本和所述每個(gè)音素對應(yīng)的后驗(yàn)概率提取所述評測文本對應(yīng)的發(fā)音特征值;
根據(jù)所述每個(gè)音素的屬性特征值和發(fā)音特征值生成每個(gè)音素對應(yīng)的特征向量;
將所述每個(gè)音素對應(yīng)的特征向量輸入到口語評測模型,獲得所述口語評測模型輸出的評測結(jié)果。
可選的,基于所述待評測音頻和所述評測文本確定所述評測文本中每個(gè)音素的屬性特征值和每個(gè)音素對應(yīng)的后驗(yàn)概率,包括:
基于所述待評測音頻和所述評測文本確定所述評測文本中每個(gè)音素的發(fā)音良好度值、發(fā)音時(shí)長和后驗(yàn)概率。
可選的,基于所述待評測音頻和所述評測文本確定所述評測文本中每個(gè)音素的發(fā)音良好度值、發(fā)音時(shí)長和后驗(yàn)概率,包括:
基于所述待評測音頻和所述評測文本確定所述評測文本中每個(gè)音素的初始發(fā)音良好度值、初始發(fā)音時(shí)長和后驗(yàn)概率;
對所述每個(gè)音素的初始發(fā)音良好度值和初始發(fā)音時(shí)長做歸一化處理,獲得所述每個(gè)音素的發(fā)音良好度值和發(fā)音時(shí)長。
可選的,基于所述待評測音頻和所述評測文本確定所述評測文本中每個(gè)音素的初始發(fā)音良好度值、初始發(fā)音時(shí)長和后驗(yàn)概率,包括:
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于北京猿力未來科技有限公司,未經(jīng)北京猿力未來科技有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011208497.8/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。





