[發(fā)明專利]一種運用人工神經(jīng)網(wǎng)絡(luò)進行前端處理的語音檢錯方法無效
| 申請?zhí)枺?/td> | 201010046520.8 | 申請日: | 2010-01-08 |
| 公開(公告)號: | CN102122507A | 公開(公告)日: | 2011-07-13 |
| 發(fā)明(設(shè)計)人: | 龔澍 | 申請(專利權(quán))人: | 龔澍 |
| 主分類號: | G10L15/16 | 分類號: | G10L15/16;G10L15/14 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 230027 安徽省合肥*** | 國省代碼: | 安徽;34 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 運用 人工 神經(jīng)網(wǎng)絡(luò) 進行 前端 處理 語音 檢錯 方法 | ||
1.一種運用人工神經(jīng)網(wǎng)絡(luò)進行前端處理的語音檢錯方法,其特征是首先建立針對發(fā)音檢錯的標準數(shù)據(jù)庫,包括單字、短語和連續(xù)語流的標準發(fā)音;同時采集待檢錯的語料,對此進行細致到音素的人工標注;將標準語料和待檢錯語料分幀,按幀計算語音的Mel倒譜系數(shù)參數(shù)(MFCC),利用人工神經(jīng)網(wǎng)絡(luò)強大的模式分類能力,產(chǎn)生新的具有良好區(qū)分性的前端特征;之后,在標準數(shù)據(jù)庫上使用HTK搭建基于隱馬爾可夫模型(HMM)的語音識別器;對于系統(tǒng)輸入的文本相關(guān)的測試語音,可知其標準發(fā)音的HMM模型,通過計算測試發(fā)音相對于標準發(fā)音的距離,生成錯誤檢測度量得分,進而判斷其發(fā)音是否準確。
2.根據(jù)權(quán)利要求1所述的方法,其特征在于先將39維原始MFCC特征和相應(yīng)的人工標注提供給多層感知器(MLP)進行訓練,同時合理地設(shè)置相關(guān)參數(shù),如將滑動窗口的大小設(shè)置為9幀,又如使隱層節(jié)點數(shù)目的設(shè)置滿足MLP平均每個權(quán)重至少分到20幀數(shù)據(jù)的要求。接著,對MLP解碼得到的輸出特征進行去相關(guān)和高斯化操作,將特征降至25維。最后,把KL變換輸出的25維特征和原始39維MFCC特征進行拼接,合并成64維的新特征,并轉(zhuǎn)換成HTK格式。
3.根據(jù)權(quán)利要求1所述的方法,其特征在于通過使用區(qū)分性訓練的神經(jīng)網(wǎng)絡(luò)去估計音素級后驗概率,將64維的新特征作為基于HMM統(tǒng)計模型的發(fā)音檢錯系統(tǒng)的輸入,語音識別器利用事先訓練好的聲學模型對輸入的聲學特征進行計算,得到檢錯所需要的檢錯特征,檢錯模塊利用得到的檢錯特征和事先訓練好的檢錯模型得出最終的檢錯結(jié)果。
4.根據(jù)權(quán)利要求1所述的方法,其特征在于采用GOP(Goodness?of?Pronunciation)作為錯誤檢測度量。GOP作為后驗概率(Posterior?Probability,PP)算法的一種變形,被定義在音素層面。假設(shè)某個待檢測的音素p對應(yīng)的觀測矢量是o1T,則音素p的GOP被定義為下式(假設(shè)各音素等概率出現(xiàn),并且使用最大值近似累加項)。其中,N是所有模型單元的數(shù)目,Q為所有音素的模型集合。
。
5.根據(jù)權(quán)利要求1所述的方法,其特征在于對采用最大似然線性回歸(MLLR)對基于隱馬爾可夫模型(HMM)的語音識別器的識別結(jié)果進行說話人自適應(yīng),以提高系統(tǒng)的檢錯性能。
6.根據(jù)權(quán)利要求1所述的方法,其特征在于:
1)建立音素平衡的標準發(fā)音人語音庫:
a)根據(jù)普通話檢錯要求的音素平衡原則設(shè)計錄音文本;
b)分性別和年齡,尋找一批適合的標準發(fā)音人;
c)安排標準發(fā)音人進行錄音工作。
2)建立測試語料的語音庫:
a)在普通話水平測試的現(xiàn)場,選取不同性別、年齡、地域的一批考生;
b)對這批考生的考試發(fā)音進行錄音,同時保存錄音試題,將錄音文件與錄音試題進行關(guān)聯(lián)。
3)建立音段模型和音調(diào)模型:
a)運用標準發(fā)音人語料庫及相應(yīng)的文本信息,訓練標準語音的音段模型,可以是音素模型,也可以是上下文相關(guān)的音節(jié)模型。模型的訓練步驟為:將語音分幀,幀長為250ms,幀移為10ms,按幀計算語音的MFCC參數(shù),之后訓練各種音段的基于MFCC參數(shù)的HMM模型。
b)運用標準發(fā)音人語料庫及相應(yīng)的文本信息,訓練標準語音的音調(diào)模型,可以是單純的四聲音調(diào)模型,也可以是與前后掉以及韻母相關(guān)的音調(diào)模型。模型的訓練步驟為:將語音分幀,幀?長為250ms,幀移為10ms,按幀計算語音的基頻參數(shù),之后訓練各種音調(diào)的基于音頻參數(shù)的HMM模型。
4)詳細標注發(fā)音錯誤:即詳細標注語音庫中的每個字的聲母、韻母以及聲調(diào)的發(fā)音正確與否,并對每個不正確聲母、韻母及調(diào)型標識出其正確的聲母、韻母和聲調(diào)。
5)針對漢語的聲韻母結(jié)構(gòu)和時長特性進行分析,得到、聲韻母時長與檢錯系統(tǒng)評測性能的關(guān)系,引入了針對漢語聲韻母結(jié)構(gòu)和時長處理策略。用標準音段模型和聲調(diào)模型對語音進行音段識別和音調(diào)識別,得到識別結(jié)果和對應(yīng)的音段識別似然度和音調(diào)識別似然度,之后計算出錯誤檢測度量GOP。
7.根據(jù)權(quán)利要求1所述的方法,其特征在于選擇合適的一個閾值,當某音素或音調(diào)的錯誤檢測度量GOP大于該閾值是就認為此音素或音調(diào)發(fā)音正確,否則認為發(fā)音錯誤。?
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于龔澍,未經(jīng)龔澍許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201010046520.8/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 硬件神經(jīng)網(wǎng)絡(luò)轉(zhuǎn)換方法、計算裝置、軟硬件協(xié)作系統(tǒng)
- 生成較大神經(jīng)網(wǎng)絡(luò)
- 神經(jīng)網(wǎng)絡(luò)的生成方法、生成裝置和電子設(shè)備
- 一種舌診方法、裝置、計算設(shè)備及計算機存儲介質(zhì)
- 學習神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)
- 脈沖神經(jīng)網(wǎng)絡(luò)轉(zhuǎn)換方法及相關(guān)轉(zhuǎn)換芯片
- 圖像處理方法、裝置、可讀存儲介質(zhì)和計算機設(shè)備
- 一種適應(yīng)目標數(shù)據(jù)集的網(wǎng)絡(luò)模型微調(diào)方法、系統(tǒng)、終端和存儲介質(zhì)
- 用于重構(gòu)人工神經(jīng)網(wǎng)絡(luò)的處理器及其操作方法、電氣設(shè)備
- 一種圖像神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)的優(yōu)化方法及裝置





