[發(fā)明專利]發(fā)音錯誤檢測方法、裝置、電子設(shè)備及存儲介質(zhì)在審

申請?zhí)枺?/td>	202010790901.0	申請日：	2020-08-07
公開（公告）號：	CN111862960A	公開（公告）日：	2020-10-30
發(fā)明（設(shè)計）人：	葉瓏;雷延強;梁偉文	申請（專利權(quán)）人：	廣州視琨電子科技有限公司
主分類號：	G10L15/08	分類號：	G10L15/08;G10L15/02;G10L15/14;G10L15/16;G10L25/60;G10L25/93
代理公司：	北京同立鈞成知識產(chǎn)權(quán)代理有限公司 11205	代理人：	朱穎;劉芳
地址：	510700 ***	國省代碼：	廣東;44
權(quán)利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關(guān)鍵詞：	發(fā)音錯誤檢測方法裝置電子設(shè)備存儲介質(zhì)
鉆瓜網(wǎng) 技術(shù)展會專利詞庫專利權(quán)人專利榜在售專利公布日期熱門專利

【說明書】：

本申請?zhí)峁┮环N發(fā)音錯誤檢測方法、裝置、電子設(shè)備及存儲介質(zhì)。該方法包括：根據(jù)發(fā)音文本和待檢測語音信號，獲取待檢測語音信號對應(yīng)的第一音素狀態(tài)序列及邊界信息，待檢測語音信號是針對發(fā)音文本的語音信號，邊界信息用于區(qū)別第一音素狀態(tài)序列中各狀態(tài)對應(yīng)的不同音素；針對第一音素狀態(tài)序列中狀態(tài)，確定狀態(tài)對應(yīng)的混淆音素狀態(tài)中后驗概率最大的狀態(tài)；根據(jù)邊界信息及后驗概率最大的狀態(tài)，確定狀態(tài)所屬音素對應(yīng)的目標混淆音素；根據(jù)目標混淆音素，確定第一音素狀態(tài)序列中對應(yīng)音素是否發(fā)音錯誤。本申請基于第一音素狀態(tài)序列中狀態(tài)對應(yīng)的混淆音素狀態(tài)中后驗概率最大的狀態(tài)還原出狀態(tài)所屬音素對應(yīng)的目標混淆音素(即實際音素)，可加快發(fā)音檢錯速度。

技術(shù)領(lǐng)域

本申請涉及計算機輔助語言學習技術(shù)，尤其涉及一種發(fā)音錯誤檢測方法、裝置、電子設(shè)備及存儲介質(zhì)。

背景技術(shù)

發(fā)音錯誤檢測(Mispronunciation Detection)技術(shù)是計算機輔助語言學習(Computer Assisted Language Learning，簡稱：CALL)技術(shù)的一個細分方向，發(fā)音錯誤檢測技術(shù)要求高效、準確地還原出學習者的實際發(fā)音情況，并給出音素級別的客觀反饋和評價，以幫助學習者糾正發(fā)音錯誤。

傳統(tǒng)的基于音素循環(huán)網(wǎng)絡(luò)的發(fā)音檢錯技術(shù)，是在無限制的音素循環(huán)網(wǎng)絡(luò)中解碼得到實際發(fā)音的音素狀態(tài)序列，進而基于音素狀態(tài)序列確定發(fā)音是否錯誤。發(fā)明人在使用該技術(shù)進行發(fā)音檢錯時，發(fā)現(xiàn)至少存在發(fā)音檢錯速度慢的問題。

發(fā)明內(nèi)容

本申請?zhí)峁┮环N發(fā)音錯誤檢測方法、裝置、電子設(shè)備及存儲介質(zhì)，以提升發(fā)音檢錯速度。

第一方面，本申請?zhí)峁┮环N發(fā)音錯誤檢測方法，該方法包括：根據(jù)發(fā)音文本和待檢測語音信號，獲取待檢測語音信號對應(yīng)的第一音素狀態(tài)序列及邊界信息，待檢測語音信號是針對發(fā)音文本的語音信號，邊界信息用于區(qū)別第一音素狀態(tài)序列中各狀態(tài)對應(yīng)的不同音素；針對第一音素狀態(tài)序列中狀態(tài)，確定狀態(tài)對應(yīng)的混淆音素狀態(tài)中后驗概率最大的狀態(tài)；根據(jù)邊界信息及后驗概率最大的狀態(tài)，確定狀態(tài)所屬音素對應(yīng)的目標混淆音素；根據(jù)目標混淆音素，確定第一音素狀態(tài)序列中對應(yīng)音素是否發(fā)音錯誤。

一種可能的實施方式中，上述確定狀態(tài)對應(yīng)的混淆音素狀態(tài)中后驗概率最大的狀態(tài)，包括：在狀態(tài)的持續(xù)時間內(nèi)，遍歷狀態(tài)所屬音素對應(yīng)的混淆音素的狀態(tài)，確定其中后驗概率最大的狀態(tài)。

一種可能的實施方式中，上述根據(jù)邊界信息及后驗概率最大的狀態(tài)，確定狀態(tài)所屬音素對應(yīng)的目標混淆音素，包括：根據(jù)邊界信息，對后驗概率最大的狀態(tài)進行分組；根據(jù)分組中狀態(tài)，確定狀態(tài)所屬音素對應(yīng)的目標混淆音素。

一種可能的實施方式中，上述根據(jù)分組中狀態(tài)，確定狀態(tài)所屬音素對應(yīng)的目標混淆音素，包括：

若分組中狀態(tài)同屬于一音素，則確定該音素為狀態(tài)所屬音素對應(yīng)的目標混淆音素；

若分組中狀態(tài)不同屬于一音素，則確定分組中后驗概率最大的狀態(tài)所屬的音素為狀態(tài)所屬音素對應(yīng)的目標混淆音素。

一種可能的實施方式中，上述根據(jù)發(fā)音文本和待檢測語音信號，獲取待檢測語音信號對應(yīng)的第一音素狀態(tài)序列及邊界信息，包括：

根據(jù)發(fā)音文本，構(gòu)建初始加權(quán)有限狀態(tài)轉(zhuǎn)移器(Weighted Finite-StateTransducers，簡稱：WFST)對齊網(wǎng)絡(luò)，其中，初始WFST對齊網(wǎng)絡(luò)表示發(fā)音文本對應(yīng)的音素的可能路徑狀態(tài)圖；

根據(jù)待檢測語音信號和初始WFST對齊網(wǎng)絡(luò)，獲取待檢測語音信號對應(yīng)的第一音素狀態(tài)序列及邊界信息。

一種可能的實施方式中，上述初始WFST對齊網(wǎng)絡(luò)包含詞間可選靜音音素路徑。

一種可能的實施方式中，上述根據(jù)目標混淆音素，確定第一音素狀態(tài)序列中對應(yīng)音素是否發(fā)音錯誤，包括：

下載完整專利技術(shù)內(nèi)容需要扣除積分，VIP會員可以免費下載。

免登錄下載普通用戶下載升級VIP會員，免費下載

該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息，商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于廣州視琨電子科技有限公司，未經(jīng)廣州視琨電子科技有限公司許可，擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作，請聯(lián)系【客服】

本文鏈接：http://www.szxzyx.cn/pat/books/202010790901.0/2.html，轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。

上一篇：雙頭打端套管自動加工設(shè)備
下一篇：一種高純氧化鋁陶瓷軸及其制備方法

同類專利

專利分類

G 物理

G10 樂器；聲學
G10L 語音分析或合成；語音識別；音頻分析或處理
G10L15-00 語音識別
G10L15-02 .語音識別的特征提取；識別單位的選擇
G10L15-04 .分段或字極限檢測
G10L15-06 .創(chuàng)建基準模板；訓練語音識別系統(tǒng)，例如對說話者聲音特征的適應(yīng)
G10L15-08 .語音分類或檢索
G10L15-20 .專門適用于不利環(huán)境

免登錄下載普通用戶下載升級VIP會員，免費下載

專利文獻下載

說明：

1、專利原文基于中國國家知識產(chǎn)權(quán)局專利說明書；

2、支持發(fā)明專利、實用新型專利、外觀設(shè)計專利（升級中）；

3、專利數(shù)據(jù)每周兩次同步更新，支持Adobe PDF格式；

4、內(nèi)容包括專利技術(shù)的結(jié)構(gòu)示意圖、流程工藝圖或技術(shù)構(gòu)造圖；

5、已全新升級為極速版,下載速度顯著提升！歡迎使用！

請您登陸后，進行下載，點擊【登陸】【注冊】