[發(fā)明專利]一種發(fā)音測(cè)評(píng)方法、介質(zhì)、裝置和計(jì)算設(shè)備在審
| 申請(qǐng)?zhí)枺?/td> | 201910405363.6 | 申請(qǐng)日: | 2019-05-16 |
| 公開(kāi)(公告)號(hào): | CN111951825A | 公開(kāi)(公告)日: | 2020-11-17 |
| 發(fā)明(設(shè)計(jì))人: | 楊曉飛;蔣成林;劉晨晨;沈欣堯;張欣;王治民;鄧雅惠;高慧朝 | 申請(qǐng)(專利權(quán))人: | 上海流利說(shuō)信息技術(shù)有限公司 |
| 主分類號(hào): | G10L25/51 | 分類號(hào): | G10L25/51;G10L15/02 |
| 代理公司: | 北京信遠(yuǎn)達(dá)知識(shí)產(chǎn)權(quán)代理有限公司 11304 | 代理人: | 魏曉波 |
| 地址: | 200092 上海市楊浦區(qū)16*** | 國(guó)省代碼: | 上海;31 |
| 權(quán)利要求書(shū): | 查看更多 | 說(shuō)明書(shū): | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 發(fā)音 測(cè)評(píng) 方法 介質(zhì) 裝置 計(jì)算 設(shè)備 | ||
本發(fā)明的實(shí)施方式提供了一種發(fā)音測(cè)評(píng)方法、裝置、介質(zhì)和計(jì)算設(shè)備。該方法包括:從用戶針對(duì)于測(cè)評(píng)內(nèi)容的待測(cè)發(fā)音音頻中提取至少一個(gè)音頻數(shù)據(jù)段;獲取至少一個(gè)音頻數(shù)據(jù)段對(duì)應(yīng)的時(shí)間邊界和相應(yīng)時(shí)間邊界內(nèi)的聲學(xué)似然度;獲取至少一個(gè)音頻數(shù)據(jù)段對(duì)應(yīng)的待測(cè)音素特征序列;基于時(shí)間邊界、混淆音素表和混淆音素對(duì)應(yīng)的閾值,從待測(cè)音素特征序列中識(shí)別出與測(cè)評(píng)內(nèi)容的標(biāo)準(zhǔn)音素特征序列不一致的待糾正音素;若對(duì)應(yīng)時(shí)間邊界內(nèi)存在待糾正音素,并且聲學(xué)似然度大于預(yù)設(shè)門(mén)限,則基于待糾正音素調(diào)整對(duì)應(yīng)的得分。本方法可以大大提高對(duì)發(fā)音音頻中混淆音素的識(shí)別率,為用戶提供更有針對(duì)性的發(fā)音測(cè)評(píng)反饋,改善用戶體驗(yàn)。
技術(shù)領(lǐng)域
本發(fā)明的實(shí)施方式涉及軟件領(lǐng)域,更具體地,本發(fā)明的實(shí)施方式涉及 一種發(fā)音測(cè)評(píng)方法、介質(zhì)、裝置和計(jì)算設(shè)備。
背景技術(shù)
本部分旨在為權(quán)利要求書(shū)中陳述的本發(fā)明的實(shí)施方式提供背景或上 下文。此處的描述不因?yàn)榘ㄔ诒静糠种芯统姓J(rèn)是現(xiàn)有技術(shù)。
在語(yǔ)言學(xué)習(xí)的過(guò)程中,學(xué)習(xí)正確的口語(yǔ)發(fā)音也是非常重要的一部分, 然而在之前幾年,口語(yǔ)學(xué)習(xí)只能跟隨線下的老師進(jìn)行,隨著技術(shù)的發(fā)展, 線上的口語(yǔ)學(xué)習(xí)成為一種趨勢(shì),近幾年口語(yǔ)發(fā)音測(cè)評(píng)打分和糾正主要建立 在語(yǔ)音特征的表示上。
然而,現(xiàn)有的發(fā)音測(cè)評(píng)方案大多采用的是沿用由劍橋大學(xué)的Silke Witt 在他的博士論文中提出經(jīng)典的GOP(Goodness of Pronunciation)算法,或 者是由其衍生出來(lái)的其他方案。這些現(xiàn)有的發(fā)音測(cè)評(píng)方案大多采用CE(交 叉熵,Cross Entropy)準(zhǔn)則訓(xùn)練的神經(jīng)網(wǎng)絡(luò)模型或者更老的GMM模型來(lái) 計(jì)算用戶發(fā)音的似然度得分,而CE模型對(duì)音素識(shí)別的準(zhǔn)確率低,無(wú)法針 對(duì)用戶發(fā)音時(shí)容易混淆、或誤發(fā)的音素進(jìn)行識(shí)別糾正。
發(fā)明內(nèi)容
由于現(xiàn)有的發(fā)音測(cè)評(píng)方案采用CE模型來(lái)計(jì)算用戶發(fā)音的似然度得 分,而CE模型對(duì)音素識(shí)別的準(zhǔn)確率低,無(wú)法針對(duì)用戶發(fā)音時(shí)容易混淆、 或誤發(fā)的音素進(jìn)行識(shí)別糾正。因此非常需要一種改進(jìn)的發(fā)音測(cè)評(píng)方法,用 以提升音素識(shí)別的準(zhǔn)確性,解決上述技術(shù)問(wèn)題。
在本上下文中,本發(fā)明的實(shí)施方式期望提供一種發(fā)音測(cè)評(píng)方法、裝置、 介質(zhì)和計(jì)算設(shè)備。
在本發(fā)明實(shí)施方式的第一方面中,提供了一種發(fā)音測(cè)評(píng)方法,包括: 從用戶針對(duì)于測(cè)評(píng)內(nèi)容的待測(cè)發(fā)音音頻中提取至少一個(gè)音頻數(shù)據(jù)段;獲取 至少一個(gè)音頻數(shù)據(jù)段對(duì)應(yīng)的時(shí)間邊界和相應(yīng)時(shí)間邊界內(nèi)的聲學(xué)似然度;獲 取至少一個(gè)音頻數(shù)據(jù)段對(duì)應(yīng)的待測(cè)音素特征序列;基于時(shí)間邊界、混淆音 素表和混淆音素對(duì)應(yīng)的閾值,從待測(cè)音素特征序列中識(shí)別出與測(cè)評(píng)內(nèi)容的 標(biāo)準(zhǔn)音素特征序列不一致的待糾正音素;若對(duì)應(yīng)時(shí)間邊界內(nèi)存在待糾正音 素,并且聲學(xué)似然度大于預(yù)設(shè)門(mén)限,則基于待糾正音素調(diào)整對(duì)應(yīng)的得分。
在本發(fā)明的再一個(gè)實(shí)施例中,發(fā)音測(cè)評(píng)方法還包括:基于待糾正音素 和/或調(diào)整后的得分來(lái)確定向用戶推送的發(fā)音糾錯(cuò)內(nèi)容,其中發(fā)音糾錯(cuò)內(nèi)容 用于指示用戶對(duì)待糾正音素進(jìn)行改進(jìn)練習(xí)。
在本發(fā)明的再一個(gè)實(shí)施例中,采用音素識(shí)別網(wǎng)絡(luò)來(lái)獲取至少一個(gè)音頻 數(shù)據(jù)段對(duì)應(yīng)的待測(cè)音素特征序列。
在本發(fā)明的再一個(gè)實(shí)施例中,由測(cè)評(píng)內(nèi)容中的至少一個(gè)單詞、發(fā)音詞 典和混淆音素表構(gòu)建成音素識(shí)別網(wǎng)絡(luò);且音素識(shí)別網(wǎng)絡(luò)中每一網(wǎng)絡(luò)路徑的 詞圖權(quán)重根據(jù)預(yù)先錄入的開(kāi)發(fā)集進(jìn)行調(diào)整。
在本發(fā)明的再一個(gè)實(shí)施例中,由測(cè)評(píng)內(nèi)容中的至少一個(gè)單詞、發(fā)音詞 典和混淆音素表構(gòu)建成音素識(shí)別網(wǎng)絡(luò);且音素識(shí)別網(wǎng)絡(luò)中每一網(wǎng)絡(luò)路徑的 詞圖權(quán)重根據(jù)預(yù)先錄入的開(kāi)發(fā)集進(jìn)行調(diào)整。
在本發(fā)明的再一個(gè)實(shí)施例中,基于時(shí)間邊界、混淆音素表和混淆音素 對(duì)應(yīng)的閾值,從待測(cè)音素特征序列中識(shí)別出與測(cè)評(píng)內(nèi)容的標(biāo)準(zhǔn)音素特征序 列不一致的待糾正音素,包括:
獲取基于測(cè)評(píng)內(nèi)容生成的標(biāo)準(zhǔn)音素特征序列;
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于上海流利說(shuō)信息技術(shù)有限公司,未經(jīng)上海流利說(shuō)信息技術(shù)有限公司許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買(mǎi)此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910405363.6/2.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專利網(wǎng)。
- 互動(dòng)式矯正發(fā)音的裝置與方法
- 可視化發(fā)音教學(xué)方法及裝置
- 一種英語(yǔ)發(fā)音質(zhì)量評(píng)價(jià)系統(tǒng)
- 發(fā)音詞典生成方法及裝置、存儲(chǔ)介質(zhì)、電子設(shè)備
- 一種基于機(jī)器學(xué)習(xí)的口語(yǔ)發(fā)音檢錯(cuò)與糾正系統(tǒng)
- 一種發(fā)音教學(xué)方法、裝置、系統(tǒng)、計(jì)算機(jī)設(shè)備和存儲(chǔ)介質(zhì)
- 發(fā)音訓(xùn)練與教學(xué)系統(tǒng)
- 一種基于音頻指紋的發(fā)音評(píng)測(cè)方法及終端
- 一種音質(zhì)美發(fā)音準(zhǔn)的漸變型發(fā)音孔嗩吶
- 音源裝置
- 一種自動(dòng)化云平臺(tái)易用性測(cè)評(píng)方法及系統(tǒng)
- 一種基于家庭服務(wù)業(yè)的誠(chéng)信體系評(píng)價(jià)方法
- 一種等保測(cè)評(píng)的自動(dòng)測(cè)評(píng)方法及系統(tǒng)
- 測(cè)評(píng)文檔生成方法、系統(tǒng)及終端設(shè)備
- 用于人才測(cè)評(píng)的多工具數(shù)字化評(píng)分方法和裝置
- 一種測(cè)評(píng)方法及系統(tǒng)
- 一種測(cè)評(píng)任務(wù)執(zhí)行信息的記錄方法及組件
- 一種基于云服務(wù)的安全測(cè)評(píng)方法及裝置
- 音視頻質(zhì)量測(cè)評(píng)系統(tǒng)、方法、計(jì)算機(jī)設(shè)備及存儲(chǔ)介質(zhì)
- 一種創(chuàng)新創(chuàng)業(yè)綜合能力測(cè)評(píng)系統(tǒng)
- 一種數(shù)據(jù)庫(kù)讀寫(xiě)分離的方法和裝置
- 一種手機(jī)動(dòng)漫人物及背景創(chuàng)作方法
- 一種通訊綜合測(cè)試終端的測(cè)試方法
- 一種服裝用人體測(cè)量基準(zhǔn)點(diǎn)的獲取方法
- 系統(tǒng)升級(jí)方法及裝置
- 用于虛擬和接口方法調(diào)用的裝置和方法
- 線程狀態(tài)監(jiān)控方法、裝置、計(jì)算機(jī)設(shè)備和存儲(chǔ)介質(zhì)
- 一種JAVA智能卡及其虛擬機(jī)組件優(yōu)化方法
- 檢測(cè)程序中方法耗時(shí)的方法、裝置及存儲(chǔ)介質(zhì)
- 函數(shù)的執(zhí)行方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)





