[其他]語音識別無效
| 申請?zhí)枺?/td> | 86100298 | 申請日: | 1986-01-20 |
| 公開(公告)號: | CN86100298A | 公開(公告)日: | 1986-08-06 |
| 發(fā)明(設(shè)計)人: | 馬修·倫寧;保羅·默梅爾斯坦;維謝瓦·納思·古普達 | 申請(專利權(quán))人: | 北方電信有限公司 |
| 主分類號: | G10L9/06 | 分類號: | G10L9/06;G10L9/04 |
| 代理公司: | 中國專利代理有限公司 | 代理人: | 匡少波 |
| 地址: | 加拿大魁北克省*** | 國省代碼: | 暫無信息 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 語音 識別 | ||
本發(fā)明是關(guān)于語音識別方面的一項發(fā)明。
在已知的各種語音識別器中,語音一般經(jīng)過脈沖編碼調(diào)制(PCM)的格式編碼后,再經(jīng)過預(yù)處理,使之變換為一種與人類聽覺系統(tǒng)領(lǐng)悟語音的方式有更為密切關(guān)系的樣式。例如,可以將語音加以處理,給出濾波器組的各通道能量、倒譜、嘜耳(mel)-頻率倒譜或線性預(yù)測系數(shù)。將各個識別單元,如字語或音節(jié),與一系列代表各有效單元的各基準樣型音中的每一個樣型音進行比較,判認最相匹配的那一個樣型音為未知的單元,並在輸出端送出相應(yīng)于該樣型音的單元標志。
雖然這類識別器對于一些應(yīng)用來說是合適的,但是,由于在于某些應(yīng)用方面,特別是在要求與說話人無關(guān)、進行電話交談或具有大詞匯量的應(yīng)用方面,這類識別器會產(chǎn)生令人不能接受的差錯率,因而效果並不完全令人滿意。其原因據(jù)認為是普通的表示法並不足以準確地模仿人類聽覺系統(tǒng)的響應(yīng)特性。
根據(jù)本發(fā)明,用以識別語音的設(shè)備包括:
(?。┯糜趯⑽粗恼Z言發(fā)音表示為一個參數(shù)幀序列的裝置,每一參數(shù)幀代表上述語音的一個相應(yīng)的時間幀;
(ⅱ)用于提供許多基準樣型音的裝置,每一樣型音包含有一個參數(shù)幀序列,並用與第一點提及的參數(shù)幀相同的各種參數(shù)予以表示。
第一點提及的一個參數(shù)幀序列(未知的)和第二點提及的一個參數(shù)幀序列(基準的)中的每一參數(shù)幀均包含一組一次參數(shù)和一組二次參數(shù)。每一個二次參數(shù)表示在相對應(yīng)的各參數(shù)幀(即導(dǎo)出各不同時間幀的各參數(shù)幀)內(nèi)各相應(yīng)一次參數(shù)之間帶符號的差數(shù);以及
(ⅲ)用于將一個未知語言的參數(shù)幀序列與每個基準樣型音相比較,並確定哪個基準樣型音與之最相匹配的裝置。
每一參數(shù)幀包含有一組根據(jù)所用的表示類型加以選定的參數(shù),例如各濾波器組的各通道的能量、倒譜、嘜耳-頻率方式倒譜或線性預(yù)測系數(shù)。
所說的各不同時間幀的中心之間的時間差應(yīng)優(yōu)選為20ms至200ms,最好選為50ms左右。二次參數(shù)通常由前面和后面的一次參數(shù)導(dǎo)出,例如由±25ms或者±兩幀的一次參數(shù)導(dǎo)出。
最好再引入一個表示幅度變化或聽覺響度變化的分量,該分量既作為未知語音又作為基準樣型音的一個二次參數(shù)。這樣的響應(yīng)分量通常不用于一次參數(shù),因為絕對幅度或絕對響應(yīng)對于區(qū)分各種字詞語音是不起作用的。
因此,本發(fā)明一般來說包括用一組動態(tài)二次參數(shù)擴充增強的一組通常用以識別語音的一次短時間靜態(tài)參數(shù),其中一次參數(shù)用于語音識別,其中二次參數(shù)表示每個一次參數(shù)在一段短的時間間隔(例如20至200ms)中的變化。除了一次參數(shù)之外,述采用動態(tài)二次參數(shù),這正與其他諸如非相關(guān)性、聽覺差別等參數(shù)相反,會使可用以區(qū)別講話聲音的距離測量或概率密度函數(shù)變得對語音差別更加靈敏。
任何一種短時間譜的表示都可以用作一組一次參數(shù)。這類表示的例子有濾波器組各通道能量、倒譜、嘜耳-頻率倒譜、線性預(yù)測系數(shù)等等。這些表示的每一種均是借助于少數(shù)的參數(shù)(一般取為3到80之間)在一個時間幀(一般為2到50ms)中估算音量大小或功率譜。
若Pt是在時間t時計算得到的各一次參數(shù)的矢量,則時間編移a和b應(yīng)選為:
20ms≤a+b≤200ms
並且動態(tài)參數(shù)矢量△Pt定義為矢量差:
△Pt=Pt+a-Pt-b
本發(fā)明是利用各參數(shù)Pt與△Pt一起的合成效果表示時間t附近的語音信號。于是,概率密度函數(shù)和間距是利用同時包含靜態(tài)(一次)和動態(tài)(二次)參數(shù)的這一擴增的參數(shù)組予以定義的。
另一方面上面的推導(dǎo)可以用幀數(shù)來表示。若△t=相鄰幀間的時間差,並若Pi=第i幀內(nèi)的一次參數(shù)矢量,則動態(tài)矢量△Pi可以定義為矢量差:
△Pi=Pi+〔a/△t〕-Pi-〔b/△t〕
選用的參數(shù)最好是嘜耳頻率方式的倒譜系數(shù),在這種情況下,各一次參數(shù)C1……,Cn表示功率譜的形狀而各二次參數(shù)△C1……,△Cn表示在規(guī)定時間間隔內(nèi)的功率譜的形狀的變化。此外,在這組二次參數(shù)中可以包含有△Co,用以表示響度或幅度的變化。
下面僅以一個例子,並參照附圖,對本發(fā)明的一個實施方案進行描述,在附圖中:
圖1是一種語音識別器的一般原理方框圖;
圖2是表示該語音識別器的濾波器裝置特性的圖形。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于北方電信有限公司,未經(jīng)北方電信有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/86100298/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。





