[發(fā)明專利]發(fā)音錯誤檢測方法、裝置、電子設(shè)備及存儲介質(zhì)在審
| 申請?zhí)枺?/td> | 202010790901.0 | 申請日: | 2020-08-07 |
| 公開(公告)號: | CN111862960A | 公開(公告)日: | 2020-10-30 |
| 發(fā)明(設(shè)計)人: | 葉瓏;雷延強;梁偉文 | 申請(專利權(quán))人: | 廣州視琨電子科技有限公司 |
| 主分類號: | G10L15/08 | 分類號: | G10L15/08;G10L15/02;G10L15/14;G10L15/16;G10L25/60;G10L25/93 |
| 代理公司: | 北京同立鈞成知識產(chǎn)權(quán)代理有限公司 11205 | 代理人: | 朱穎;劉芳 |
| 地址: | 510700 *** | 國省代碼: | 廣東;44 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 發(fā)音 錯誤 檢測 方法 裝置 電子設(shè)備 存儲 介質(zhì) | ||
本申請?zhí)峁┮环N發(fā)音錯誤檢測方法、裝置、電子設(shè)備及存儲介質(zhì)。該方法包括:根據(jù)發(fā)音文本和待檢測語音信號,獲取待檢測語音信號對應(yīng)的第一音素狀態(tài)序列及邊界信息,待檢測語音信號是針對發(fā)音文本的語音信號,邊界信息用于區(qū)別第一音素狀態(tài)序列中各狀態(tài)對應(yīng)的不同音素;針對第一音素狀態(tài)序列中狀態(tài),確定狀態(tài)對應(yīng)的混淆音素狀態(tài)中后驗概率最大的狀態(tài);根據(jù)邊界信息及后驗概率最大的狀態(tài),確定狀態(tài)所屬音素對應(yīng)的目標混淆音素;根據(jù)目標混淆音素,確定第一音素狀態(tài)序列中對應(yīng)音素是否發(fā)音錯誤。本申請基于第一音素狀態(tài)序列中狀態(tài)對應(yīng)的混淆音素狀態(tài)中后驗概率最大的狀態(tài)還原出狀態(tài)所屬音素對應(yīng)的目標混淆音素(即實際音素),可加快發(fā)音檢錯速度。
技術(shù)領(lǐng)域
本申請涉及計算機輔助語言學習技術(shù),尤其涉及一種發(fā)音錯誤檢測方法、裝置、電子設(shè)備及存儲介質(zhì)。
背景技術(shù)
發(fā)音錯誤檢測(Mispronunciation Detection)技術(shù)是計算機輔助語言學習(Computer Assisted Language Learning,簡稱:CALL)技術(shù)的一個細分方向,發(fā)音錯誤檢測技術(shù)要求高效、準確地還原出學習者的實際發(fā)音情況,并給出音素級別的客觀反饋和評價,以幫助學習者糾正發(fā)音錯誤。
傳統(tǒng)的基于音素循環(huán)網(wǎng)絡(luò)的發(fā)音檢錯技術(shù),是在無限制的音素循環(huán)網(wǎng)絡(luò)中解碼得到實際發(fā)音的音素狀態(tài)序列,進而基于音素狀態(tài)序列確定發(fā)音是否錯誤。發(fā)明人在使用該技術(shù)進行發(fā)音檢錯時,發(fā)現(xiàn)至少存在發(fā)音檢錯速度慢的問題。
發(fā)明內(nèi)容
本申請?zhí)峁┮环N發(fā)音錯誤檢測方法、裝置、電子設(shè)備及存儲介質(zhì),以提升發(fā)音檢錯速度。
第一方面,本申請?zhí)峁┮环N發(fā)音錯誤檢測方法,該方法包括:根據(jù)發(fā)音文本和待檢測語音信號,獲取待檢測語音信號對應(yīng)的第一音素狀態(tài)序列及邊界信息,待檢測語音信號是針對發(fā)音文本的語音信號,邊界信息用于區(qū)別第一音素狀態(tài)序列中各狀態(tài)對應(yīng)的不同音素;針對第一音素狀態(tài)序列中狀態(tài),確定狀態(tài)對應(yīng)的混淆音素狀態(tài)中后驗概率最大的狀態(tài);根據(jù)邊界信息及后驗概率最大的狀態(tài),確定狀態(tài)所屬音素對應(yīng)的目標混淆音素;根據(jù)目標混淆音素,確定第一音素狀態(tài)序列中對應(yīng)音素是否發(fā)音錯誤。
一種可能的實施方式中,上述確定狀態(tài)對應(yīng)的混淆音素狀態(tài)中后驗概率最大的狀態(tài),包括:在狀態(tài)的持續(xù)時間內(nèi),遍歷狀態(tài)所屬音素對應(yīng)的混淆音素的狀態(tài),確定其中后驗概率最大的狀態(tài)。
一種可能的實施方式中,上述根據(jù)邊界信息及后驗概率最大的狀態(tài),確定狀態(tài)所屬音素對應(yīng)的目標混淆音素,包括:根據(jù)邊界信息,對后驗概率最大的狀態(tài)進行分組;根據(jù)分組中狀態(tài),確定狀態(tài)所屬音素對應(yīng)的目標混淆音素。
一種可能的實施方式中,上述根據(jù)分組中狀態(tài),確定狀態(tài)所屬音素對應(yīng)的目標混淆音素,包括:
若分組中狀態(tài)同屬于一音素,則確定該音素為狀態(tài)所屬音素對應(yīng)的目標混淆音素;
若分組中狀態(tài)不同屬于一音素,則確定分組中后驗概率最大的狀態(tài)所屬的音素為狀態(tài)所屬音素對應(yīng)的目標混淆音素。
一種可能的實施方式中,上述根據(jù)發(fā)音文本和待檢測語音信號,獲取待檢測語音信號對應(yīng)的第一音素狀態(tài)序列及邊界信息,包括:
根據(jù)發(fā)音文本,構(gòu)建初始加權(quán)有限狀態(tài)轉(zhuǎn)移器(Weighted Finite-StateTransducers,簡稱:WFST)對齊網(wǎng)絡(luò),其中,初始WFST對齊網(wǎng)絡(luò)表示發(fā)音文本對應(yīng)的音素的可能路徑狀態(tài)圖;
根據(jù)待檢測語音信號和初始WFST對齊網(wǎng)絡(luò),獲取待檢測語音信號對應(yīng)的第一音素狀態(tài)序列及邊界信息。
一種可能的實施方式中,上述初始WFST對齊網(wǎng)絡(luò)包含詞間可選靜音音素路徑。
一種可能的實施方式中,上述根據(jù)目標混淆音素,確定第一音素狀態(tài)序列中對應(yīng)音素是否發(fā)音錯誤,包括:
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于廣州視琨電子科技有限公司,未經(jīng)廣州視琨電子科技有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010790901.0/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。





