[發(fā)明專利]具備多讀音糾錯功能的語言學習系統(tǒng)在審
| 申請?zhí)枺?/td> | 202310398343.7 | 申請日: | 2023-04-14 |
| 公開(公告)號: | CN116434780A | 公開(公告)日: | 2023-07-14 |
| 發(fā)明(設計)人: | 郭晶晶;劉恕 | 申請(專利權(quán))人: | 威盛電子股份有限公司 |
| 主分類號: | G10L25/60 | 分類號: | G10L25/60;G10L25/78;G10L15/02;G10L15/06;G10L15/26;G10L25/30;G06N3/044;G06N3/0442;G06N3/08;G09B5/06 |
| 代理公司: | 北京林達劉知識產(chǎn)權(quán)代理事務所(普通合伙) 11277 | 代理人: | 劉新宇;宋曉雯 |
| 地址: | 中國臺灣新北*** | 國省代碼: | 暫無信息 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 具備 讀音 糾錯 功能 語言 學習 系統(tǒng) | ||
本發(fā)明提供一種具備多讀音糾錯功能的語言學習系統(tǒng),以運行在一數(shù)據(jù)處理服務器上的一音頻質(zhì)量檢測系統(tǒng),偵測用戶朗讀一文本的一音頻的多讀音,以提示用戶進行糾正。
技術(shù)領(lǐng)域
本發(fā)明關(guān)于語言學習系統(tǒng),特別有關(guān)于口說的音頻質(zhì)量檢測(Goodness?ofpronunciation,簡稱GOP)。
背景技術(shù)
隨著計算機的技術(shù)發(fā)展,語言學習系統(tǒng)功能越來越強大。使用者可準備各種文本進行口說訓練。系統(tǒng)可對用戶錄音的完整度、流暢度、準確度…等進行評分反饋,幫助用戶提升口語。此功能稱為音頻質(zhì)量檢測(GOP)。
如何提升音頻質(zhì)量檢測(GOP)的可信度,還幫助用戶改善口說,為本技術(shù)領(lǐng)域一項重大課題。
發(fā)明內(nèi)容
本發(fā)明提出一種具備多讀音糾錯功能的語言學習系統(tǒng),包括運行在一數(shù)據(jù)處理服務器上的一音頻質(zhì)量檢測(GOP)系統(tǒng),偵測用戶朗讀文本的一音頻的多讀音,以提示用戶進行糾正。運行在該數(shù)據(jù)處理服務器上的一數(shù)據(jù)預處理系統(tǒng)可包括一標注系統(tǒng)、以及一音頻預處理系統(tǒng),用以根據(jù)該文本、以及該音頻,分別產(chǎn)生標注、以及一音頻數(shù)據(jù)。該音頻質(zhì)量檢測(GOP)系統(tǒng)是基于該標注、以及該音頻數(shù)據(jù),判別該音頻相對該文本是否有多讀音。
一種實施方式中,該音頻質(zhì)量檢測(GOP)系統(tǒng)運行:一強制對齊系統(tǒng);以及一無效幀判別系統(tǒng)。該強制對齊系統(tǒng)令該音頻數(shù)據(jù)強制對齊包括文本音素序列的該標注,產(chǎn)生一強制對齊結(jié)果,顯示該音頻各幀對應該文本音素序列中的哪些音素,且屬所對應幀的哪個狀態(tài)。該無效幀判別系統(tǒng)自該強制對齊結(jié)果,判別該音頻數(shù)據(jù)中,無法對齊該文本音素序列的無效幀,是否對應多讀音。
一種實施方式中,該音頻數(shù)據(jù)中無法對齊該文本音素序列的一連串無效幀的幀數(shù)超過一多讀音判別閾值時,該無效幀判別系統(tǒng)判別該一連串無效幀對應多讀音。
一種實施方式中,該多讀音判別閾值取決于該音頻的采樣率。
一種實施方式中,該音頻質(zhì)量檢測(GOP)系統(tǒng)還運行一語音活動檢測(voiceactivity?detection簡稱VAD)系統(tǒng)。該語音活動檢測(VAD)系統(tǒng)以深度學習的一循環(huán)神經(jīng)網(wǎng)絡為該音頻數(shù)據(jù)過濾噪音。
一種實施方式中,該多讀音判別閾值取決于該語音活動檢測系統(tǒng)的算法。
一種實施方式中,該音頻質(zhì)量檢測(GOP)系統(tǒng)還運行一多讀音語音識別系統(tǒng)。該多讀音語音識別系統(tǒng)響應該無效幀判別系統(tǒng)判別該一連串無效幀對應多讀音,辨識該一連串無效幀的音素,繼而分析出多讀內(nèi)容。
一種實施方式中,語言學習系統(tǒng)還包括一人機接口,由客戶端裝置運行,供用戶選擇文本進行朗讀錄音,并上傳該文本、以及該音頻至該數(shù)據(jù)處理服務器。運行在該數(shù)據(jù)處理服務器上的該音頻質(zhì)量檢測(GOP)系統(tǒng)將多讀內(nèi)容、或多讀提示,通過網(wǎng)絡回傳并經(jīng)該人機接口,提示給用戶。
一種實施方式中,該音頻質(zhì)量檢測系統(tǒng)還包括一后驗概率計算系統(tǒng)、以及一指定級別音頻質(zhì)量打分系統(tǒng),基于該強制對齊結(jié)果,進行后驗概率計算,繼而實現(xiàn)該音頻特定級別的打分,以通過網(wǎng)絡回傳通知,經(jīng)該人機接口,提示用戶。偵測到的多讀音可反映在打分上。
下文特舉實施例,并配合所附圖示,詳細說明本發(fā)明內(nèi)容。
附圖說明
圖1圖解一種語言學習系統(tǒng)100;
圖2以方塊圖圖解一特定單詞的音頻-標注模型的實施架構(gòu);
圖3以方塊圖圖解句子-標注模型128的一種實施架構(gòu);
圖4根據(jù)本發(fā)明一種實施方式圖解標注系統(tǒng)112的工作流程;
圖5圖解語言模型502、以及聲學模型504的一種建立方式;
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于威盛電子股份有限公司,未經(jīng)威盛電子股份有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202310398343.7/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 上一篇:一種單晶硅片切片系統(tǒng)及其工藝
- 下一篇:一種無人機槳葉束槳器





