[發(fā)明專利]組合唇讀與語(yǔ)音識(shí)別的多模式界面系統(tǒng)有效
| 申請(qǐng)?zhí)枺?/td> | 200910246886.7 | 申請(qǐng)日: | 2009-12-03 |
| 公開(公告)號(hào): | CN102023703A | 公開(公告)日: | 2011-04-20 |
| 發(fā)明(設(shè)計(jì))人: | 金大熙;金大鎮(zhèn);李珍;申鐘柱;李振碩 | 申請(qǐng)(專利權(quán))人: | 現(xiàn)代自動(dòng)車株式會(huì)社;起亞自動(dòng)車株式會(huì)社 |
| 主分類號(hào): | G06F3/01 | 分類號(hào): | G06F3/01;G06K9/00;G10L15/00;G01C21/36 |
| 代理公司: | 北京尚誠(chéng)知識(shí)產(chǎn)權(quán)代理有限公司 11322 | 代理人: | 龍淳 |
| 地址: | 韓國(guó)*** | 國(guó)省代碼: | 韓國(guó);KR |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 組合 語(yǔ)音 識(shí)別 模式 界面 系統(tǒng) | ||
1.一種組合唇讀與語(yǔ)音識(shí)別的多模式界面系統(tǒng),包括:
音頻語(yǔ)音輸入單元,其獲得通過音頻輸入傳感器輸入的聲音信號(hào)或者通過有線或無線連接從外部傳送的輸入音頻信號(hào);
語(yǔ)音識(shí)別單元,其從輸入音頻信號(hào)識(shí)別語(yǔ)音并且計(jì)算估計(jì)的識(shí)別準(zhǔn)確度;
語(yǔ)音識(shí)別指令和估計(jì)概率輸出單元,其輸出與語(yǔ)音識(shí)別單元識(shí)別的語(yǔ)音相對(duì)應(yīng)的指令和估計(jì)的識(shí)別概率值;
嘴唇視頻圖像輸入單元,其獲得通過圖像輸入傳感器輸入的輸入圖像或者通過有線或無線連接從外部傳送的輸入圖像;
唇讀單元,其通過處理輸入圖像識(shí)別說話者的唇讀指令;
唇讀識(shí)別指令輸出單元,其輸出由唇讀單元識(shí)別的唇讀指令;以及
語(yǔ)音識(shí)別與唇讀識(shí)別結(jié)果組合單元,如果估計(jì)的概率高于閾值,則其輸出語(yǔ)音識(shí)別指令,如果估計(jì)的概率低于閾值,則其輸出唇讀指令。
2.如權(quán)利要求1所述的系統(tǒng),其中唇讀單元包括:
嘴唇檢測(cè)器,其使用來自嘴唇視頻圖像輸入單元的輸入圖像檢測(cè)嘴唇特征;
嘴唇模型生成器,其使用主動(dòng)外觀模型(AAM)嘴唇模型生成形狀模型和外觀模型;
嘴唇跟蹤器,其使用由嘴唇模型生成器生成的形狀模型和Lucas-Kanade(LK)算法,跟蹤作為在嘴唇檢測(cè)后AAM擬合的結(jié)果而獲得的嘴唇特征點(diǎn);
語(yǔ)音片段檢測(cè)器,其將預(yù)定周期的幀數(shù)據(jù)輸入到神經(jīng)網(wǎng)絡(luò)識(shí)別器中,以便基于作為對(duì)連續(xù)的輸入圖像進(jìn)行嘴唇跟蹤的結(jié)果而獲得的一系列嘴唇模型參數(shù),確定片段是語(yǔ)音片段還是靜音片段;
系統(tǒng)模式確定器,其確定系統(tǒng)是處于嘴唇特征數(shù)據(jù)的標(biāo)簽已知的學(xué)習(xí)模式,還是處于嘴唇特征數(shù)據(jù)的標(biāo)簽未知的識(shí)別模式;
唇讀識(shí)別學(xué)習(xí)單元,如果系統(tǒng)處于學(xué)習(xí)模式,則其使用特征數(shù)據(jù)和輸入標(biāo)簽學(xué)習(xí)K最近鄰域(K-NN)學(xué)習(xí)器;
指令識(shí)別單元,如果系統(tǒng)處于識(shí)別模式,則其通過習(xí)得的K-NN識(shí)別器找到與特征數(shù)據(jù)最相似的學(xué)習(xí)模式,并且輸出作為特征值的結(jié)果指令;以及
嘴唇特征數(shù)據(jù)庫(kù),其存儲(chǔ)離線或在線習(xí)得的每個(gè)指令的模式。
3.如權(quán)利要求2所述的系統(tǒng),還包括:
唇讀特征檢測(cè)單元,其從來自語(yǔ)音片段檢測(cè)器的輸入圖像檢測(cè)唇讀特征;
語(yǔ)音識(shí)別單詞估計(jì)概率確定單元,如果由語(yǔ)音識(shí)別模塊識(shí)別的指令的估計(jì)概率高于閾值,則確定使用由唇讀特征檢測(cè)單元檢測(cè)的嘴唇圖像作為嘴唇特征的學(xué)習(xí)標(biāo)簽執(zhí)行學(xué)習(xí);
嘴唇特征檢測(cè)確定單元,其確定是否正確地檢測(cè)到圖像特征數(shù)據(jù);以及
實(shí)時(shí)唇讀學(xué)習(xí)單元,其通過使用從基于的語(yǔ)音識(shí)別模塊提供的指令作為標(biāo)簽,對(duì)從唇讀特征檢測(cè)單元提供的嘴唇特征值執(zhí)行k-NN學(xué)習(xí),來更新嘴唇特征數(shù)據(jù)庫(kù),由此實(shí)現(xiàn)說話者自適應(yīng)實(shí)時(shí)學(xué)習(xí)系統(tǒng)。
4.如權(quán)利要求1所述的系統(tǒng),還包括交互服務(wù)單元,其根據(jù)服務(wù)情景以有限的方式識(shí)別必要的指令,由此實(shí)現(xiàn)能夠?qū)崟r(shí)學(xué)習(xí)的在線學(xué)習(xí)識(shí)別算法。
5.如權(quán)利要求4所述的系統(tǒng),其中交互服務(wù)單元包括:
服務(wù)情景數(shù)據(jù)庫(kù),其預(yù)先定義可對(duì)各屏幕輸入的一序列指令,并且在執(zhí)行唇讀或者語(yǔ)音識(shí)別時(shí)提供可對(duì)各服務(wù)屏幕或者在各階段輸入的該序列指令;
服務(wù)屏幕;
屏幕轉(zhuǎn)換單元,其根據(jù)在服務(wù)情景數(shù)據(jù)庫(kù)中定義的功能響應(yīng)于輸入指令執(zhí)行屏幕轉(zhuǎn)換,并且向服務(wù)屏幕提供當(dāng)前服務(wù)狀態(tài)的信息;
識(shí)別目標(biāo)單詞序列設(shè)置單元,其設(shè)置在基于服務(wù)情景數(shù)據(jù)庫(kù)發(fā)生狀態(tài)改變的情況下,各服務(wù)狀態(tài)或者屏幕所要求的一序列單詞;
如權(quán)利要求1所述的多模式界面系統(tǒng),其通過參照由識(shí)別目標(biāo)單詞序列設(shè)置單元設(shè)置的識(shí)別目標(biāo)單詞序列組合唇讀與語(yǔ)音識(shí)別,來執(zhí)行抗噪語(yǔ)音識(shí)別;
服務(wù)執(zhí)行單元,其響應(yīng)于輸入指令執(zhí)行屏幕轉(zhuǎn)換、語(yǔ)音引導(dǎo)、信息注冊(cè)和其它注冊(cè)的應(yīng)用服務(wù);以及
識(shí)別結(jié)果確定單元,其確定語(yǔ)音識(shí)別或者唇讀識(shí)別是否失敗,以決定是否對(duì)輸入音頻和視頻信號(hào)執(zhí)行服務(wù),從而限制在實(shí)際服務(wù)中要識(shí)別的單詞的數(shù)目,由此顯著提高識(shí)別率。
6.一種組合唇讀與語(yǔ)音識(shí)別的多模式界面系統(tǒng),包括:
音頻語(yǔ)音輸入單元;
語(yǔ)音識(shí)別單元;
語(yǔ)音識(shí)別指令和估計(jì)概率輸出單元;
嘴唇視頻圖像輸入單元;
唇讀單元;
唇讀識(shí)別指令輸出單元;以及
語(yǔ)音識(shí)別與唇讀識(shí)別結(jié)果組合單元,其輸出語(yǔ)音識(shí)別指令。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于現(xiàn)代自動(dòng)車株式會(huì)社;起亞自動(dòng)車株式會(huì)社,未經(jīng)現(xiàn)代自動(dòng)車株式會(huì)社;起亞自動(dòng)車株式會(huì)社許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/200910246886.7/1.html,轉(zhuǎn)載請(qǐng)聲明來源鉆瓜專利網(wǎng)。
- 上一篇:用于安全性增強(qiáng)地操作通信網(wǎng)絡(luò)的方法、系統(tǒng)和計(jì)算機(jī)程序產(chǎn)品
- 下一篇:一種用于發(fā)動(dòng)機(jī)的后懸置軟墊總成
- 同類專利
- 專利分類
G06F 電數(shù)字?jǐn)?shù)據(jù)處理
G06F3-00 用于將所要處理的數(shù)據(jù)轉(zhuǎn)變成為計(jì)算機(jī)能夠處理的形式的輸入裝置;用于將數(shù)據(jù)從處理機(jī)傳送到輸出設(shè)備的輸出裝置,例如,接口裝置
G06F3-01 .用于用戶和計(jì)算機(jī)之間交互的輸入裝置或輸入和輸出組合裝置
G06F3-05 .在規(guī)定的時(shí)間間隔上,利用模擬量取樣的數(shù)字輸入
G06F3-06 .來自記錄載體的數(shù)字輸入,或者到記錄載體上去的數(shù)字輸出
G06F3-09 .到打字機(jī)上去的數(shù)字輸出
G06F3-12 .到打印裝置上去的數(shù)字輸出
- 用于語(yǔ)音處理的方法與系統(tǒng)
- 一種語(yǔ)音識(shí)別測(cè)試系統(tǒng)及方法
- 用于語(yǔ)音識(shí)別的方法和裝置
- 一種語(yǔ)音消毒柜的控制方法及語(yǔ)音消毒柜
- 一種語(yǔ)音處理方法及裝置
- 混合語(yǔ)音識(shí)別方法、裝置及計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)
- 語(yǔ)音情緒識(shí)別方法、系統(tǒng)、移動(dòng)終端及存儲(chǔ)介質(zhì)
- 一種具有語(yǔ)音識(shí)別功能的智能語(yǔ)音終端設(shè)備
- 語(yǔ)音增強(qiáng)方法、裝置、電子設(shè)備和存儲(chǔ)介質(zhì)
- 一種聲紋鑒定語(yǔ)音重組方法和系統(tǒng)
- 識(shí)別媒體、識(shí)別媒體的識(shí)別方法、識(shí)別對(duì)象物品以及識(shí)別裝置
- 一種探針卡識(shí)別裝置和方法
- 識(shí)別裝置、識(shí)別方法以及記錄介質(zhì)
- 識(shí)別裝置、識(shí)別系統(tǒng),識(shí)別方法以及存儲(chǔ)介質(zhì)
- 識(shí)別程序、識(shí)別方法以及識(shí)別裝置
- 車載身份識(shí)別方法及系統(tǒng)
- 車載身份識(shí)別方法及系統(tǒng)
- 車載身份識(shí)別方法及系統(tǒng)
- 識(shí)別裝置、識(shí)別方法以及識(shí)別程序
- 識(shí)別裝置、識(shí)別方法及識(shí)別程序





