[發(fā)明專利]一種基于發(fā)音模型的語音質(zhì)量評測方法有效
| 申請?zhí)枺?/td> | 201010164996.1 | 申請日: | 2010-04-30 |
| 公開(公告)號: | CN101840699A | 公開(公告)日: | 2010-09-22 |
| 發(fā)明(設(shè)計(jì))人: | 葛鳳培;顏永紅 | 申請(專利權(quán))人: | 中國科學(xué)院聲學(xué)研究所 |
| 主分類號: | G10L11/00 | 分類號: | G10L11/00;G10L15/00;G10L15/06 |
| 代理公司: | 北京法思騰知識產(chǎn)權(quán)代理有限公司 11318 | 代理人: | 楊小蓉;高宇 |
| 地址: | 100190 *** | 國省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 發(fā)音 模型 語音 質(zhì)量 評測 方法 | ||
1.一種基于發(fā)音模型的語音質(zhì)量評測方法,其特征在于:該方法包括發(fā)音模型的構(gòu)建步驟和語音質(zhì)量評測步驟;
其中發(fā)音模型構(gòu)建步驟包括下列子步驟:
1.1)確定發(fā)音質(zhì)量音素集;
1.2)對訓(xùn)練數(shù)據(jù)劃分發(fā)音質(zhì)量等級;
1.3)依據(jù)發(fā)音質(zhì)量等級訓(xùn)練發(fā)音模型;
語音質(zhì)量評測步驟包括下列子步驟:
2.1)提取待評測發(fā)音段的語音特征;
2.2)構(gòu)建基于所述發(fā)音模型的解碼網(wǎng)絡(luò),進(jìn)行Viterbi解碼;
2.3)對每個(gè)音素計(jì)算基于發(fā)音模型的置信度;
2.4)根據(jù)所述置信度得出所述待評測發(fā)音段的發(fā)音質(zhì)量。
2.根據(jù)權(quán)利要求1所述的基于發(fā)音模型的語音質(zhì)量評測方法,其特征在于,所述步驟1.1)中對每個(gè)音素分為三個(gè)不同的發(fā)音質(zhì)量等級。
3.根據(jù)權(quán)利要求1所述的基于發(fā)音模型的語音質(zhì)量評測方法,其特征在于,所述步驟1.2)中訓(xùn)練數(shù)據(jù)的發(fā)音質(zhì)量等級劃分包括如下步驟:準(zhǔn)備訓(xùn)練數(shù)據(jù)的原始語音和音素標(biāo)注文本;采用Viterbi解碼算法,將原始語音和音素標(biāo)注進(jìn)行強(qiáng)制對齊,計(jì)算每個(gè)音素的后驗(yàn)概率;按照音素后驗(yàn)概率值的大小劃分發(fā)音質(zhì)量等級。
4.根據(jù)權(quán)利要求1所述的基于發(fā)音模型的語音質(zhì)量評測方法,其特征在于,所述步驟1.3)中,所述發(fā)音模型采用傳統(tǒng)隱馬爾可夫模型的框架構(gòu)建。
5.根據(jù)權(quán)利要求1所述的基于發(fā)音模型的語音質(zhì)量評測方法,其特征在于,所述步驟2.2)中搭建基于發(fā)音模型的解碼網(wǎng)絡(luò)包括如下步驟:利用發(fā)音字典將目標(biāo)文本轉(zhuǎn)換成音素串序列;對每個(gè)音素將其各個(gè)發(fā)音質(zhì)量并聯(lián);將音素串序列轉(zhuǎn)換成各個(gè)音素質(zhì)量并聯(lián)子網(wǎng)絡(luò)的串聯(lián)宏網(wǎng)絡(luò)即獲得基于發(fā)音模型的解碼網(wǎng)絡(luò)。
6.根據(jù)權(quán)利要求1所述的基于發(fā)音模型的語音質(zhì)量評測方法,其特征在于,所述步驟2.3)中對每個(gè)音素計(jì)算基于發(fā)音模型的置信度包括如下步驟:利用步驟2.2)中Viterbi解碼獲得的音素分割點(diǎn)信息,在指定音素段間搭建音素混淆網(wǎng)絡(luò);在音素混淆網(wǎng)絡(luò)的每條路徑上利用Viterbi算法獲得聲學(xué)似然值;計(jì)算音素后驗(yàn)概率作為發(fā)音質(zhì)量評價(jià)的依據(jù),取目標(biāo)音素最優(yōu)質(zhì)量對應(yīng)的路徑上的聲學(xué)似然值作為所述音素后驗(yàn)概率的分子,混淆網(wǎng)絡(luò)的所有路徑上的聲學(xué)似然值的和作為所述音素后驗(yàn)概率的分母。
7.根據(jù)權(quán)利要求1所述的基于發(fā)音模型的語音質(zhì)量評測方法,其特征在于,所述步驟2.4)中采用線性預(yù)測器得出所述待評測發(fā)音段的發(fā)音質(zhì)量。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于中國科學(xué)院聲學(xué)研究所,未經(jīng)中國科學(xué)院聲學(xué)研究所許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201010164996.1/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 互動式矯正發(fā)音的裝置與方法
- 可視化發(fā)音教學(xué)方法及裝置
- 一種英語發(fā)音質(zhì)量評價(jià)系統(tǒng)
- 發(fā)音詞典生成方法及裝置、存儲介質(zhì)、電子設(shè)備
- 一種基于機(jī)器學(xué)習(xí)的口語發(fā)音檢錯(cuò)與糾正系統(tǒng)
- 一種發(fā)音教學(xué)方法、裝置、系統(tǒng)、計(jì)算機(jī)設(shè)備和存儲介質(zhì)
- 發(fā)音訓(xùn)練與教學(xué)系統(tǒng)
- 一種基于音頻指紋的發(fā)音評測方法及終端
- 一種音質(zhì)美發(fā)音準(zhǔn)的漸變型發(fā)音孔嗩吶
- 音源裝置





