[發明專利]一種便攜式唇語識別系統在審

申請號：	202110294624.9	申請日：	2021-03-19
公開（公告）號：	CN113283284A	公開（公告）日：	2021-08-20
發明（設計）人：	于真;王楠;沈希臻	申請（專利權）人：	成都理工大學
主分類號：	G06K9/00	分類號：	G06K9/00;G06N3/04;G06N3/08
代理公司：	暫無信息	代理人：	暫無信息
地址：	610059 四川***	國省代碼：	四川;51
權利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關鍵詞：	一種便攜式識別系統
鉆瓜網技術展會專利詞庫專利權人專利榜在售專利公布日期熱門專利

【說明書】：

本發明公開了一種用于唇讀的識別技術，該技術包括硬件和軟件系統兩大部分。硬件部分包括MCU、電源模塊、采集模塊、顯示屏、外圍模塊。軟件部分包括采集唇部圖像、對唇部圖像進行處理、訓練模型、得到所需要的模型文件、測試模型文件的識別準確度是否達到預期要求。通過實驗結果調節模型所涉及的參數，進行驗證和比對，進而實現唇語識別。該發明主要目的在于實現便攜式唇語識別系統，建立一種高效便捷的通信方式，方便聽障人群在嘈雜環境也能很好的交流。

技術領域

本發明屬于唇語識別技術領域，具體為一種便攜式唇語識別系統。

背景技術

唇讀是一項復雜的技術，將計算機視覺和自然語言處理集成在一起。該技術指通過捕捉說話者的嘴唇動作來識別人們在說什么，尤其在嘈雜環境下，人要更加依賴觀察對方的嘴唇運動來判斷其說話內容;例如聾啞人群與其他人的交流必須依賴于對方的唇動視覺信息。已有研究證明，唇動視覺信息是說話內容的重要載體，唇讀技術可以通過基于增強學習的視覺感知來補充語音信息。唇語識別技術也獲得了廣泛的關注，被應用到案件偵破、輔助語音識別、虛擬現實系統等領域。

近年來，由于深度學習的發展，使得唇語識別技術也得到突破性的進展。提取嘴唇特征方式由ANN,SVM,HMM等傳統模型轉換成CNN、LSTM、GRU等深度神經網絡模型，顯著提高了唇讀準確率和訓練時間。現階段唇語系統中的模型對于唇語的識別精度很高，但是實用性不強，沒有正式在生活中使用。一是，模型都是基于gpu或cpu訓練，在pc端容易實現，但pc端移動性差，且無法在簡單的設備中部署；二是智能手機有很強的人機交互性且移動性強，但是受本身電路板組件的空間的限制，不允許有相應的USB，HDMI和其他接口。

發明內容

為了解決嘴唇特征提取具有時序信息以及硬件方面的不足，本發明提供了基于混合神經網絡的便攜式唇語識別系統，以解決唇語系統的唇部特征提取和不實用性等問題。其具體方案如下：

第一方面，本申請實例提供了一種唇部圖像特征的提取方法，包括：

通過連接到樹莓派4B的免驅動CSI攝像頭獲得待識別的唇讀視頻，并存儲起來。

然后對存儲的唇讀視頻，使用STCNN網絡進行視頻幀處理得到連續的唇部特征序列；再通過基于注意力機制的雙向卷積長短時網絡對唇部特征序列進行時序編碼和學習不同時刻的注意力權重；最后通過softmax和CTC函數預測最終的識別結果。

第二方面，本申請實例提供了一種便攜式唇語識別系統，包括：

硬件系統：由CSI攝像頭、顯示屏以及樹莓派和其他外圍模塊組成。

軟件系統：主要是對唇讀視頻進行視頻幀處理以及對唇部圖像進行時序編碼的混合神經網絡模型。使這些模型能在樹莓派進行訓練，并顯示處理后的唇讀信息。

整個系統的運行流程為：1、使用攝像頭獲得待識別的唇讀視頻。2、應用混合神經網絡模型對唇讀視頻進行特征處理以及識別。3、將識別得到的結果顯示在屏幕上。

附圖說明

為了更清楚地說明本申請實施例或現有技術中的技術方案，下面將對實施例或現有技術描述中所需要使用的附圖作簡單地介紹，顯而易見地，下面描述中的附圖僅僅是本申請的實施例，對于本領域普通技術人員來講，在不付出創造性勞動的前提下，還可以根據提供的附圖獲得其他的附圖。

圖1為本申請實例提供的一種便攜式唇語識別系統整體框架示意圖。