[發明專利]一種視聽融合的語音識別系統無效
| 申請號: | 201410140715.7 | 申請日: | 2014-04-09 |
| 公開(公告)號: | CN104036775A | 公開(公告)日: | 2014-09-10 |
| 發明(設計)人: | 不公告發明人 | 申請(專利權)人: | 天津思博科科技發展有限公司 |
| 主分類號: | G10L15/14 | 分類號: | G10L15/14 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 300384 天津市濱海新區華苑產業區*** | 國省代碼: | 天津;12 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 視聽 融合 語音 識別 系統 | ||
技術領域
本發明涉及視聽融合和語音識別領域,更具體的講是一種采用了基于耦合的隱馬爾科夫模型(CHMM)的視聽融合的語音識別系統。?
背景技術
目前現有的語音識別技術已經取得了較大的發展并且已經應用到了多個領域,如:辦公室或商務系統、制造業、電信、醫療等其他領域,然而由于較高的語音識別率通常都是在較純凈的語音環境中得到的,當處于噪聲環境時,識別率將會急劇下降,而人類的語音感知具有聽覺和視覺的雙模型特性,從而具有很高的語音識別能力,并且在語音失真或受到噪音干擾的情況下,仍然能夠達到較高的識別率,所以視聽語音識別系統的研究逐漸日益引起人們的關注。該類系統通常通過綜合利用說話人的音頻信息和視頻信息(特別是嘴部形狀特征)完成語音識別。聽覺和視覺具有同步性,然而在一定范圍內二者之間也具有異步性。實際上,當人們說話時,在發聲之前嘴部已經開始運動,發聲結束后嘴部閉合恢復到自然狀態又需要一定的時間。?
本發明中涉及的隱馬爾可夫模型(HMM)包含兩個隨機過程,其中之一是Markov鏈,它描述了狀態的轉移,產生一定的狀態序列,但是是被隱藏起來,無法觀測的;另外一個隨機過程描述了狀態和觀測值之間的統計對應關系。不同的狀態按照各自概率函數產生一定的觀測序列,觀測者只能看到觀測值而不能看到Markov鏈中的狀態,只能通過一個隨機過程感知狀態的存在及它的特性,所以稱之為隱馬爾可夫模型,其基本要素包括:?
N:模型中隱含狀態的數目。S={S1,S2,LSN}表示狀態的集合。?
M:每個狀態所對應的可能的觀察值數目。記M個觀測值為V={V1,V2,LVM}。記t時刻的觀測值為Ot,則Ot∈(V1,V2,LVM)。?
π:初始狀態的概率分布π=(π1,π2,LπN),其中πi=P(q1=Si)1≤i≤N。?
A:狀態轉移概率矩陣。A={ai,j},其中ai,j=P(qt+1=Sj|qt=Si)1≤i,j≤N?
B:觀測值的概率矩陣。B={bj,k},其中bj,k=P(Ot=Vk|qt=Sj)1≤j≤N,1≤k≤M?
HMM可以由說明書附圖1表示,節點之間的箭頭表示兩個狀態之間的條件概率關系。?
一個CHMM可以看作是多個HMM的集合,在它們的狀態序列之間引入條件概率而得到的一個多HMM的模型。其中,某一條HMM鏈的t時刻的狀態與模型中所有相關的HMM的t-1時刻的狀態有關。說明書附圖1中方形的節點代表耦合鏈的觀察節點,圓形節點代表耦合鏈的隱藏節點。?
發明內容
為了解決上述問題,本發明公開了一種視聽融合的語音識別系統,采用視聽耦合隱馬爾科夫模型(Coupled?Hidden?Markov?Model,CHMM),目的在于通過對視頻信號和音頻信號不同的采樣率及延遲,允許了視聽狀態之間的狀態的不同步(不用考慮視聽同步過程)。?
本發明是采取以下技術方案實現的:一種視聽融合的語音識別系統,包括:音頻特征提取、視頻特征提取、建立CHMM模型三個步驟。三個步驟之間的關系如下:對于視聽語音識別系統而言就是由音頻的HMM和視頻的HMM組成。與單條鏈的HMM不同,CHMM可以通過節點之間的狀態轉移概率捕捉到音頻和視頻之間的相互作用關系,允許音頻信息和視頻信息的狀態的異步。另外,對于耦合隱馬爾科夫模型而言,音頻鏈和視頻鏈所利用的最大期望算法(EM算法)進行參數估計的過程是獨立的,與需要實時關聯的音頻視頻模型相比減小了參數空間和參數復雜性。?
本發明的實現還包括以下的技術方案:?
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于天津思博科科技發展有限公司,未經天津思博科科技發展有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201410140715.7/2.html,轉載請聲明來源鉆瓜專利網。





