[發明專利]語音識別裝置、語音識別方法和記錄介質無效
| 申請號: | 01119203.8 | 申請日: | 2001-03-14 |
| 公開(公告)號: | CN1320902A | 公開(公告)日: | 2001-11-07 |
| 發明(設計)人: | 赫爾穆特·勒克;南野活樹;淺野康治;小川浩明 | 申請(專利權)人: | 索尼公司 |
| 主分類號: | G10L15/00 | 分類號: | G10L15/00 |
| 代理公司: | 柳沈知識產權律師事務所 | 代理人: | 馬瑩 |
| 地址: | 日本*** | 國省代碼: | 暫無信息 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 語音 識別 裝置 方法 記錄 介質 | ||
本發明涉及一種語音識別裝置、一種語音識別方法和一種記錄介質。更具體的說,本發明涉及一種語音識別裝置和一種語音識別方法,它們能夠在例如發言中含有未知的單詞時減小語音識別精度的降低,并涉及一種記錄介質。
圖1示出了一種用來進行連續語音識別的常規語音識別裝置的例子的結構圖。
將用戶生成的語音輸入到一話筒1中。在話筒1中,輸入的語音轉換成一種作為電子信號的音頻信號。將這種音頻信號提供給一個AD(模-數)轉換部分2。在AD轉換部分2中,對來自話筒1的作為模擬信號的音頻信號進行采樣和量化,轉換成作為數字信號的音頻數據。將這種音頻數據提供給特征提取部分3。
特征提取部分3在來自AD轉換部分2的音頻數據的每個合適的幀都進行如傅立葉變換和濾波之類的聲學處理,從而提取出特征,諸如,例如MFCC(Mel頻率倒譜系數);并將此特征提供給匹配部分4。此外,特征提取部分3還可以提取諸如頻譜、線性預測系數、倒譜系數和線頻譜對的特征。
根據例如連續分配HMM的方法同時利用來自特征提取部分3的特征,參考必須的聲音模型數據庫5、詞典數據庫6和語法數據庫7,匹配部分4對輸入到匹配部分4(輸入語音)的語音輸入進行語音識別。
更具體的說,聲音模型數據庫5中存儲了一個聲音模型,它示出了各個聲音元素和要進行語音識別的口語中音節的聲學特征。這里,由于語音識別是根據連續分配HMM方法進行的,所以對聲音模型,例如,使用了HMM(隱馬爾可夫模型)。詞典數據庫6中存儲了單詞詞典,其中描述了每個單詞(詞匯)的發音信息(音韻信息),這些單詞(詞匯)是語音識別的對象。語法數據庫7中存儲了連接(鏈接)詞典數據庫6的詞典中輸入的每個單詞的語法規則(語言模型)。這里,作為語法規則,例如也可以使用基于上下文無關語法(CFG)的規則,統計的單詞排序概率(N語法)等。
通過參考詞典數據庫6的單詞詞典,匹配部分4可以連接存儲在聲音模型數據庫5中的聲音模型,從而形成該單詞的聲音模型(單詞模型)。此外,通過參考存儲在語法數據庫7中的語法規則,匹配部分4可以連接數個單詞模型,并根據其特征使用按此方式連接的單詞模型,以便用連續分配HMM的方法識別輸入到話筒1上的語音。也就是說,匹配部分4可以檢測出其中在所觀察的特征提取部分3輸出的時間序列的特征處的得分(似然性)最大的一系列單詞模型,并將與此單詞模型序列對應的單詞序列作為語音識別的結果輸出。
更具體的說,匹配部分4累積單詞序列的每個特征出現的概率,此單詞序列對應著已連接的單詞模型;并把累計數值假定作為一個得分,將得分最高的單詞序列作為語音識別結果輸出。
得分計算通常是通過共同評價一個聲學得分(下文中稱作“聲學得分”)和一個語言得分(下文中在合適處稱作“語言得分”)進行的,其中聲學得分是由存儲在聲音模型數據庫5中的聲音模型給出的,語言得分是由語法數據庫7中存儲的語法規則給出的。
更具體的說,例如,在HMM方法的情況中,要根據所觀察的特征提取部分3輸出的特征序列的概率(出現概率),為每個來自聲學模型的單詞計算聲學得分,聲學模型構成了一個單詞模型。而且,例如,在bigram的情況中,語言得分是根據連接(鏈接)的特定單詞和正好在它前面的一個單詞的可能性來決定的。然后,根據為每個單詞共同評價聲學得分和語言得分而得到的最后得分(下文中在合適處稱作“最后得分”)來決定語音識別的結果。
具體的說,當由N個單詞組成的單詞序列中的第k個單詞表示成wk時,并且單詞wk的聲學得分表示成A(wk),語言得分表示成L(wk)時,可以根據下面的方程計算出此單詞序列的最后得分,例如:
S=∑(A(wk)+Ck×L(wk))
??????????????????????????????????????…(1)
其中,∑表示K從1到N變化時的總和,Ck表示應用到單詞wk的語言得分L(wk)上的加權。
匹配部分4進行匹配過程,以決定例如將方程(1)所示的最后得分最大化的N和一個單詞序列w1,w2,…,wN,并將此單詞序列w1,w2,…,wN作為語音識別的結果輸出。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于索尼公司,未經索尼公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/01119203.8/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:多層陶瓷片狀電容器及其制備方法
- 下一篇:平版印刷版用支撐體





