[發明專利]語音識別系統無效
| 申請號: | 01132877.0 | 申請日: | 2001-09-12 |
| 公開(公告)號: | CN1343967A | 公開(公告)日: | 2002-04-10 |
| 發明(設計)人: | 小林載 | 申請(專利權)人: | 日本先鋒公司 |
| 主分類號: | G10L15/00 | 分類號: | G10L15/00;G10L15/04 |
| 代理公司: | 北京市柳沈律師事務所 | 代理人: | 魏曉剛 |
| 地址: | 日本*** | 國省代碼: | 暫無信息 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 語音 識別 系統 | ||
??????????????????技術領域
本發明涉及一種語音識別系統,且更具體地說,本發明涉及一種語音部分的檢測精度得以改善的語音識別系統。
??????????????????背景技術
在語音識別系統中,例如當在嘈雜環境中發出的語音直接經受語音識別時,由于噪聲的影響語音識別比將惡化。因此,正確檢測語音部分以進行語音識別是首要的。
利用矢量內積檢測語音部分的傳統公知的語音識別系統如圖4所示構造。
該語音識別系統創建以詞或子詞(例如因素或音節)為單位的聲學樣板(語音HMM),采用一HMM(隱式馬爾可夫原型(Hidden?Markov?Model)),產生觀察值序列,該觀察值是如果要被識別的語音發出時,對于輸入的信號的倒頻譜(Cepstrum)的時間序列,將觀察值序列與語音HMM對照,并選取最相象的語音HMM,其然后作為識別結果輸出。
更具體地說,采集并存儲在一訓練語音數據庫內的大量語音數據Sm被分隔成對于預定時間段(約10到20毫秒)幀單元,通過使倒頻譜依次在以幀為單位的每個數據上操作而得到倒頻譜的時間序列,此外,該倒頻譜的時間序列被學習為語音的特征量,并反映為聲學樣板(語音HMM)的參數,從而產生以詞或子詞為單位的語音HMM。
同樣,用于檢測語音部分的語音部分檢測部分包括聲學分析器1、3、本征矢量產生部分2、內積操作部分4、比較部分5、以及語音提取部分6。
在此,聲學分析器1在訓練語音數據庫內對于每個幀號n進行語音數據Sm的聲學分析,以產生M維特征矢量xn=[xn1xn2xn3…xnM]T。在此,T表示轉置。
本征矢量產生部分2從M維特征矢量xn產生由下面的表達式(1)表示的相關矩陣R,且相關矩陣R通過求解以下表達式(2)而展開成本征值,以獲得一本征矢量(稱為訓練矢量)V。
(R-λkI)Vk=0????(2)
其中,k=1、2、3、…、M;
I表示單位矩陣;以及
0表示零矢量。
從而,訓練矢量V先前基于訓練語音數據Sm計算出。如果當發出語音時,真正產生輸入信號數據Sa,聲學分析部分4分析輸入信號Sa以產生特征矩陣A。內積操作部分5計算訓練矢量V和特征矢量A的內積。此外,比較部分6將內積值VTA與固定的閾值θ相比較,且如果內積值VTA大于閾值θ時,語音部分被確定。
并且,在語音部分被如上所述確定以從輸入信號Sa中提取用于語音識別的信號Svc過程中,語音提取部分6被打開(導通),并產生一系列要與語音HMM相對照的觀察值。
順便地說,通過利用矢量內積檢測語音部分的傳統方法,閾值θ被固定在零(θ=0)。且如果在真實環境下獲得的輸入信號Sa的特征矢量A與訓練矢量V之間的內積值VTA大于固定的閾值θ,語音部分被確定。
因此,在不太嘈雜環境中產生語音的情況下,考慮到真實環境下獲得的輸入信號中的噪聲(噪聲矢量)的特征矢量、正確語音(語音矢量)的特征矢量、在真實環境下獲得的輸入信號的特征矢量A、以及線性譜域上的訓練矢量V之間的關系,噪聲矢量不大,且正確語音的語音矢量占主導地位,如圖5A所示,從而在真實環境下獲得的輸入信號的特征矢量A指向與語音矢量和訓練矢量V相同的方向。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于日本先鋒公司,未經日本先鋒公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/01132877.0/2.html,轉載請聲明來源鉆瓜專利網。





