[發(fā)明專利]唇語識別系統(tǒng)及方法在審
| 申請?zhí)枺?/td> | 201910220908.6 | 申請日: | 2019-03-22 |
| 公開(公告)號: | CN111724786A | 公開(公告)日: | 2020-09-29 |
| 發(fā)明(設計)人: | 田發(fā)景 | 申請(專利權)人: | 上海博泰悅臻網絡技術服務有限公司 |
| 主分類號: | G10L15/25 | 分類號: | G10L15/25;G10L15/22;G06K9/00 |
| 代理公司: | 上海波拓知識產權代理有限公司 31264 | 代理人: | 張媛 |
| 地址: | 201821 上海市嘉*** | 國省代碼: | 上海;31 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 識別 系統(tǒng) 方法 | ||
本發(fā)明實施例公開了一種唇語識別系統(tǒng)及方法,屬于識別技術領域。其中唇語識別系統(tǒng)包括:唇語訓練模型建立模塊、實時唇語采集模塊、唇語預測模塊以及喚醒模塊,唇語訓練模型建立模塊用于根據(jù)大量唇語圖像和對應的喚醒詞進行學習,以預先建立唇語訓練模型;實時唇語采集模塊用于實時采集用戶的唇部視頻圖像,并將采集的唇部視頻圖像提供給唇語預測模塊;唇語預測模塊用于對唇部視頻圖像進行自動分析,提取唇部圖像特征值,根據(jù)唇語訓練模型和唇部圖像特征值得到預測結果,將預測結果提供給喚醒模塊;喚醒模塊用于根據(jù)唇語預測模塊提供的預測結果生成控制指令,以控制相應的車載系統(tǒng)。本發(fā)明能夠提高對用戶唇語控制指令的識別效率。
技術領域
本發(fā)明涉及識別技術領域,特別涉及一種唇語識別系統(tǒng)及方法。
背景技術
隨著自動化工業(yè)的日益發(fā)展,車輛數(shù)目越來越多,已經成為人們日常出行不可或缺的重要交通工具。目前的車載系統(tǒng)通常都有語音交互功能,可以通過用戶語音直接喚醒相關車載系統(tǒng)進行交互,例如語音控制開啟車內空調系統(tǒng),語音控制打開車內天窗等系統(tǒng)。但是在一些聲音噪雜的環(huán)境下,例如汽車高速行駛時產生的噪音環(huán)境或者乘客在車內談話的環(huán)境,另外在駕駛員說話聲音極小的情況下,都會影響車載系統(tǒng)對語音的識別率,導致相應車載系統(tǒng)的喚醒率會比較低,還容易出現(xiàn)誤喚醒的現(xiàn)象,這嚴重影響了用戶的交互體驗。因此,極其需要車載系統(tǒng)能夠在周圍環(huán)境復雜的情況下仍然能夠準確識別駕駛員的語音控制指令,以對車載系統(tǒng)進行有效的控制。
現(xiàn)有技術中,在聲音較難識別的環(huán)境中,車載系統(tǒng)通常采用的方法就是識別駕駛人員說話時的唇形,以推測出駕駛人員的語音控制指令,但是現(xiàn)有技術的唇語識別效率較低,還不能滿足人們的需求。
因此,為了解決上述問題,人們急需探索出一種更好的唇語識別系統(tǒng)及方法,以更優(yōu)地服務于我們的日常生活,提高對用戶唇語控制指令的識別效率。
發(fā)明內容
本發(fā)明提供一種唇語識別系統(tǒng)及方法,能夠提高對用戶唇語控制指令的識別效率。
所述技術方案如下:
本發(fā)明實施例提供了一種唇語識別系統(tǒng),其包括:唇語訓練模型建立模塊、實時唇語采集模塊、唇語預測模塊以及喚醒模塊,其中,所述唇語訓練模型建立模塊,與所述唇語預測模塊相連,用于根據(jù)大量唇語圖像和對應的喚醒詞進行學習,以預先建立唇語訓練模型,并將預先建立的唇語訓練模型提供給所述唇語預測模塊;所述實時唇語采集模塊,與所述唇語預測模塊相連,用于實時采集用戶的唇部視頻圖像,并將采集的唇部視頻圖像提供給所述唇語預測模塊;所述唇語預測模塊,與所述喚醒模塊相連,用于對唇部視頻圖像進行自動分析,提取唇部圖像特征值,根據(jù)唇語訓練模型和唇部圖像特征值得到預測結果,將預測結果提供給所述喚醒模塊;所述喚醒模塊,用于根據(jù)所述唇語預測模塊提供的預測結果生成控制指令,以控制相應的車載系統(tǒng)。
在本發(fā)明較佳的實施例中,所述唇語訓練模型建立模塊還用于采集不同年齡段、不同性別的人群對相同喚醒詞進行語音訓練的唇部圖像,并根據(jù)采集的唇部圖像采用循環(huán)神經網絡算法得到唇語訓練模型。
在本發(fā)明較佳的實施例中,所述唇語訓練模型包括唇部圖像特征值和對應的喚醒詞,所述唇部圖像特征值包括唇部形狀。
在本發(fā)明較佳的實施例中,所述實時唇語采集模塊為設置于車內上方的攝像頭。
在本發(fā)明較佳的實施例中,所述唇語識別系統(tǒng)還包括語音識別模塊,所述實時唇語采集模塊還用于將采集的唇部視頻圖像提供給所述語音識別模塊,所述語音識別模塊用于對唇部視頻圖像進行語音識別,以得到語音識別結果后提供給所述喚醒模塊,所述喚醒模塊還用于根據(jù)所述唇語預測模塊提供的預測結果和所述語音識別模塊提供的語音識別結果生成控制指令,以控制相應的車載系統(tǒng)。
在本發(fā)明較佳的實施例中,所述喚醒模塊還用于根據(jù)預測結果和語音識別結果在不同環(huán)境條件下訓練出環(huán)境權重,并根據(jù)所述環(huán)境權重、預測結果和語音識別結果生成控制指令,以控制相應的車載系統(tǒng)。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于上海博泰悅臻網絡技術服務有限公司,未經上海博泰悅臻網絡技術服務有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業(yè)授權和技術合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910220908.6/2.html,轉載請聲明來源鉆瓜專利網。





