[發(fā)明專利]組合唇讀與語音識別的多模式界面系統(tǒng)有效
| 申請?zhí)枺?/td> | 200910246886.7 | 申請日: | 2009-12-03 |
| 公開(公告)號: | CN102023703A | 公開(公告)日: | 2011-04-20 |
| 發(fā)明(設(shè)計)人: | 金大熙;金大鎮(zhèn);李珍;申鐘柱;李振碩 | 申請(專利權(quán))人: | 現(xiàn)代自動車株式會社;起亞自動車株式會社 |
| 主分類號: | G06F3/01 | 分類號: | G06F3/01;G06K9/00;G10L15/00;G01C21/36 |
| 代理公司: | 北京尚誠知識產(chǎn)權(quán)代理有限公司 11322 | 代理人: | 龍淳 |
| 地址: | 韓國*** | 國省代碼: | 韓國;KR |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 組合 語音 識別 模式 界面 系統(tǒng) | ||
技術(shù)領(lǐng)域
本發(fā)明總體涉及一種組合唇讀與語音識別的多模式界面系統(tǒng)。更具體地,在優(yōu)選實施例中,本發(fā)明涉及一種組合唇讀與語音識別的多模式界面系統(tǒng),其能夠主要通過且優(yōu)選地僅通過語音和嘴唇運動適當?shù)匕l(fā)布導航操作指令,因此,優(yōu)選地使得駕駛員在導航操作過程中向前看,并且適當?shù)販p少在行駛過程中與導航操作相關(guān)的車輛事故。
背景技術(shù)
目前,隨著汽車技術(shù)的發(fā)展和日常生活中車輛使用的增加,對安全的關(guān)注與需求也已經(jīng)在增加。并且,隨著電子技術(shù)的發(fā)展,各種類型的裝置常規(guī)地安裝于車輛上,例如,但并不限于,音頻設(shè)備、電話以及導航系統(tǒng)。
常規(guī)地,導航系統(tǒng)優(yōu)選地通過經(jīng)由觸摸屏輸入指令來進行操作。雖然使用觸摸屏可以使輸入錯誤最小化,但是使用者必須同時使用他/她的手和眼睛,這使得在行駛過程中操作導航系統(tǒng)變得困難,并且還分散使用者的注意力,因此增加了事故的風險。作為這種方式的替換,已經(jīng)使用了使用語音識別的指令輸入方法。然而,這種方法對音頻噪聲敏感,因此在噪聲環(huán)境下可能發(fā)生識別故障。
基于嘴唇圖像數(shù)據(jù)使用唇讀的語音識別技術(shù)的研究仍處于算法研究的初始階段。為了實現(xiàn)實時操作的唇讀系統(tǒng),必須穩(wěn)定地檢測使用者的嘴唇,適當?shù)卣业阶齑降奶卣鼽c,并且適當?shù)匮杆俑櫵鼈儭R虼耍幌盗胁襟E,包括但不限于面部檢測、嘴唇檢測、嘴唇跟蹤、特征定義、數(shù)據(jù)歸一化、語音片段檢測、識別等,優(yōu)選地一起工作。然而,目前,還不存在對所有步驟的一致性研究。
常規(guī)地,已經(jīng)提出了基于主動外觀模型(AAM)或主動形狀模型(ASM)的嘴唇擬合算法。其性能對初始位置敏感,并且不能魯棒地跟蹤嘴唇在說話中的快速運動,從而使得在視頻跟蹤時難以獲得穩(wěn)定的特征值。雖然為了在視頻獲得嘴唇特征的變化作為特征值之后識別該特征值,需要用于一致性地檢測語音片段并將其分割為幀的自動語音檢測算法,但對該算法尚無研究。此外,雖然已經(jīng)對使用隱馬爾可夫模型(HMM)或神經(jīng)網(wǎng)絡(luò)的識別器算法開展了研究,但是這些算法需要一定量的用于學習的學習數(shù)據(jù),并且進一步需要大量的數(shù)據(jù)進行學習,以實現(xiàn)精細的識別器。已知,學習現(xiàn)有的基于音頻的說話者無關(guān)(speaker-independent)的語音識別器需要每個單詞來自多于2000人的學習數(shù)據(jù)。因此,當旨在實現(xiàn)說話者無關(guān)的唇讀識別器時,不容易確保HM??學習所需的足夠的學習數(shù)據(jù)。而且,因為HMM學習涉及復雜的數(shù)學計算過程,所以需要許多系統(tǒng)資源和時間,因此使得難以在例如導航系統(tǒng)的低規(guī)格系統(tǒng)中執(zhí)行在線學習。
目前,唇讀系統(tǒng)的獨立識別率為40%至60%,其遠低于語音識別器的獨立識別率。這是因為從嘴唇圖像可識別的發(fā)音的基本單位(視位)的數(shù)目(13)比基于音頻的語音識別中的發(fā)音的基本單位(音位)的數(shù)目(44)少70%,從而顯著地降低了區(qū)別口型看似相似的單詞的能力。因此,實際應用服務(wù)系統(tǒng)難以單獨通過唇讀實現(xiàn)指令識別系統(tǒng)。
在此背景技術(shù)部分中公開的以上信息僅用于增強對本發(fā)明的背景技術(shù)的理解,因此其可能包含不構(gòu)成在本國對于本領(lǐng)域技術(shù)人員而言已公知的現(xiàn)有技術(shù)的信息。
發(fā)明內(nèi)容
本發(fā)明在優(yōu)選方面提供了一種組合唇讀與語音識別的多模式界面系統(tǒng),其實現(xiàn)了通過攝像機從面部圖像有效地檢測嘴唇的唇讀系統(tǒng),適當?shù)馗欁齑竭\動,并且基于嘴唇的特征值適當?shù)刈R別語音指令,隨后適當?shù)亟M合唇讀系統(tǒng)與基于音頻的語音識別系統(tǒng),使得使用攝像機圖像的唇讀能夠在語音識別器由于噪聲而無法工作的環(huán)境中適當?shù)亟邮罩噶睢?/p>
在一些優(yōu)選實施例中,本發(fā)明優(yōu)選地提供了一種組合唇讀與語音識別的多模式界面系統(tǒng),其基于適合的情景適當?shù)嘏渲米鳛榻换ハ到y(tǒng)的導航系統(tǒng)的應用服務(wù)屏幕,并且限制將要識別的指令,使得可根據(jù)各服務(wù)屏幕狀態(tài)僅識別必要的指令,由此提高單個指令的識別率。
在另外的優(yōu)選實施例中,本發(fā)明提供了一種組合唇讀與語音識別的多模式界面系統(tǒng),其適當?shù)貞媚軌驅(qū)崟r在線學習的識別器算法,以便當駕駛者長時間使用該系統(tǒng)時,使識別器適當?shù)剡m應駕駛者的語音特征,由此逐漸提高識別率。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于現(xiàn)代自動車株式會社;起亞自動車株式會社,未經(jīng)現(xiàn)代自動車株式會社;起亞自動車株式會社許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/200910246886.7/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 同類專利
- 專利分類
G06F 電數(shù)字數(shù)據(jù)處理
G06F3-00 用于將所要處理的數(shù)據(jù)轉(zhuǎn)變成為計算機能夠處理的形式的輸入裝置;用于將數(shù)據(jù)從處理機傳送到輸出設(shè)備的輸出裝置,例如,接口裝置
G06F3-01 .用于用戶和計算機之間交互的輸入裝置或輸入和輸出組合裝置
G06F3-05 .在規(guī)定的時間間隔上,利用模擬量取樣的數(shù)字輸入
G06F3-06 .來自記錄載體的數(shù)字輸入,或者到記錄載體上去的數(shù)字輸出
G06F3-09 .到打字機上去的數(shù)字輸出
G06F3-12 .到打印裝置上去的數(shù)字輸出





