[發(fā)明專利]一種可實(shí)時反饋用戶朗讀進(jìn)度的語音跟蹤方法有效
| 申請?zhí)枺?/td> | 201210483056.8 | 申請日: | 2012-11-24 |
| 公開(公告)號: | CN103035244A | 公開(公告)日: | 2013-04-10 |
| 發(fā)明(設(shè)計)人: | 潘頌聲;趙乾;吳玲;何春江;王兵;朱群 | 申請(專利權(quán))人: | 安徽科大訊飛信息科技股份有限公司 |
| 主分類號: | G10L15/30 | 分類號: | G10L15/30 |
| 代理公司: | 北京科迪生專利代理有限責(zé)任公司 11251 | 代理人: | 成金玉 |
| 地址: | 230088 安徽省*** | 國省代碼: | 安徽;34 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 實(shí)時 反饋 用戶 朗讀 進(jìn)度 語音 跟蹤 方法 | ||
1.一種可實(shí)時反饋用戶朗讀進(jìn)度的語音跟蹤方法,其特征在于實(shí)現(xiàn)步驟如下:
(1)輸入待跟蹤的文本,并進(jìn)行文本處理;
(2)根據(jù)所述文本搭建跟蹤解碼網(wǎng)絡(luò),并將跟蹤解碼網(wǎng)絡(luò)、聲學(xué)模型傳給解碼器;所述聲學(xué)模型是語音識別的基礎(chǔ)數(shù)學(xué)模型,模型單元是基礎(chǔ)數(shù)學(xué)模型的組成部分,可以是音素、音節(jié)或字;
(3)實(shí)時提取聲學(xué)特征序列,所述聲學(xué)特征序列是指聲學(xué)特征中多個單元,每一個單元稱為一幀,并實(shí)時傳遞給解碼器;所述聲學(xué)特征是描述短時語音本質(zhì)特征的一組值;
(4)解碼器基于步驟(3)中輸入的聲學(xué)特征序列,在跟蹤解碼網(wǎng)絡(luò)中對所有可能的網(wǎng)絡(luò)路徑進(jìn)行搜索,每隔一定時間檢查當(dāng)前的搜索路徑,并找出當(dāng)前概率最優(yōu)路徑,基于此最優(yōu)路徑判斷用戶朗讀進(jìn)度,獲取當(dāng)前朗讀內(nèi)容在文本中的位置和狀態(tài);同時結(jié)合最大路徑中發(fā)音單元的概率信息檢測用戶是否朗讀了文本外的內(nèi)容;
(5)根據(jù)步驟(4)中反饋的當(dāng)前朗讀內(nèi)容在文本中的位置和狀態(tài),實(shí)時顯示跟蹤進(jìn)度;
所述步驟(2)中搭建跟蹤解碼網(wǎng)絡(luò)的過程如下:
(21)獲取文本處理步驟中得到的朗讀文本模型單元序列,所述模型單元序列是指多個模型單元按順序排列在一起稱為模型單元序列;
(22)計算節(jié)點(diǎn)和連接弧的數(shù)目,分配內(nèi)存,即根據(jù)模型單元序列個數(shù)計算跟蹤解碼網(wǎng)絡(luò)中的空節(jié)點(diǎn)、朗讀文本模型單元節(jié)點(diǎn)、無關(guān)語音模型單元節(jié)點(diǎn)及連接弧個數(shù),并為這些節(jié)點(diǎn)和弧分配存儲單元;
(23)構(gòu)造無關(guān)語音吸收網(wǎng)絡(luò),即將無關(guān)語音吸收網(wǎng)絡(luò)中的關(guān)聯(lián)節(jié)點(diǎn)用弧進(jìn)行連接;
(24)將朗讀文本模型單元節(jié)點(diǎn)、空節(jié)點(diǎn)、無關(guān)語音吸收網(wǎng)絡(luò)通過弧連接。
2.根據(jù)權(quán)利要求1所述的一種可實(shí)時反饋用戶朗讀進(jìn)度的語音跟蹤方法,其特征在于:所述步驟(4)中找出當(dāng)前概率最優(yōu)路徑的過程為:
(41)取出解碼器上一次輸出的最優(yōu)路徑,若模型單元中為字,則此處的路徑即為朗讀文本序列,若模型單元為音素或音節(jié),則需要將其解析成朗讀文本序列;
(42)獲取解碼器當(dāng)前輸出的最優(yōu)路徑,并解析成朗讀文本序列,將新的朗讀文本序列與上一次的朗讀文本序列進(jìn)行差異比較;
(43)根據(jù)步驟(42)中的文本序列差異,標(biāo)記每個字的狀態(tài),所述每個字的狀態(tài)包括:UNREAD、CHECKING、HASREAD,UNREAD表明前面拋出過該字已朗讀,但是在后期的檢查中發(fā)現(xiàn)用戶沒有朗讀該字,需取消前面的判斷;CHECKING表明用戶正在朗讀該字,且尚未朗讀完整;HASREAD表明用戶已朗讀了該字;
(44)得到最優(yōu)路徑,并保存(42)中獲取的最優(yōu)路徑供下一次差異比較。
3.根據(jù)權(quán)利要求1所述的一種可實(shí)時反饋用戶朗讀進(jìn)度的語音跟蹤方法,其特征在于:所述步驟(3)中聲學(xué)特征包括梅爾倒譜系數(shù)MFCC、倒譜系數(shù)CEP、線性預(yù)測系數(shù)LPC或感知線性預(yù)測系數(shù)PLP。
4.根據(jù)權(quán)利要求1所述的一種可實(shí)時反饋用戶朗讀進(jìn)度的語音跟蹤方法,其特征在于:所述步驟(4)中解碼器包括Viterbi解碼,或是基于動態(tài)時間規(guī)整(DTW)的解碼。
5.根據(jù)權(quán)利要求1所述的一種可實(shí)時反饋用戶朗讀進(jìn)度的語音跟蹤方法,其特征在于:所述步驟第(2)構(gòu)建跟蹤解碼網(wǎng)絡(luò)時,根據(jù)應(yīng)用需要構(gòu)造不同結(jié)構(gòu)的跟蹤解碼網(wǎng)絡(luò),包括調(diào)整節(jié)點(diǎn)間跳轉(zhuǎn)的靈活性、連接弧的懲罰。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于安徽科大訊飛信息科技股份有限公司,未經(jīng)安徽科大訊飛信息科技股份有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201210483056.8/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。





