[發明專利]多模態在線增量式來訪識別系統及其識別方法有效
| 申請號: | 201410500366.5 | 申請日: | 2014-09-25 |
| 公開(公告)號: | CN104361311B | 公開(公告)日: | 2017-09-12 |
| 發明(設計)人: | 申富饒;臧世博;干強;武慧凱;宗延琦;趙金熙 | 申請(專利權)人: | 南京大學 |
| 主分類號: | G06K9/00 | 分類號: | G06K9/00;G06K9/62;G10L15/26 |
| 代理公司: | 南京鐘山專利代理有限公司32252 | 代理人: | 戴朝榮 |
| 地址: | 210023 江蘇*** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 多模態 在線 增量 來訪 識別 系統 及其 方法 | ||
1.一種多模態在線增量式來訪識別系統,其特征在于包括電腦終端,所述的電腦終端同攝像頭、聲音傳感器以及音響設備相連接,所述的電腦終端中設置有多模態在線增量式來訪識別模塊、OPENCV視覺庫、第一配置文檔、第二配置文檔、用來存放人臉識別模型數據的文件和用于存放照片總數和照片的分類對象的屬性的總數的文檔;
多模態在線增量式來訪識別系統的識別方法,步驟如下:
步驟1:準備和初始化階段,所述的準備和初始化階段方法如下:
電腦終端啟動多模態在線增量式來訪識別模塊來調用用于訓練的子模塊,用于訓練的子模塊首先讀取出第一配置文檔中的照片的名字和照片的分類對象的屬性,根據照片的名字和照片的分類對象的屬性在OPENCV視覺庫中進行人臉識別模型的訓練,得到符合當前應用場景的人臉識別模型,并把照片總數和照片的分類對象的屬性的總數存儲到用于存放照片總數和照片的分類對象的屬性的總數的文檔以及把訓練好的人臉識別模型數據保存在用來存放人臉識別模型數據的文件中;
步驟2:進入初始化階段,所述的初始化階段包括啟動人臉檢測子模塊,人臉識別子模塊和姓名識別子模塊分別進行人臉檢測的初始化,人臉識別的初始化和姓名識別的初始化,具體如下:
首先啟動人臉檢測子模塊載入OPENCV視覺庫中內置的Haar級聯分類器,載入了Haar級聯分類器后,然后在電腦終端的內存中開辟一段內存空間來保存人臉圖像,這樣就完成了人臉檢測的初始化;接著啟動人臉識別子模塊把照片總數和照片的分類對象的屬性的總數從用于存放照片總數和照片的分類對象的屬性的總數的文檔中提取出來,然后從第二配置文檔中讀取人臉所對應的姓名和人臉的分類對象的屬性,人臉所對應的姓名和人臉的分類對象的屬性也用分隔符分離,分隔符前為人臉所對應的姓名,分隔符后為人臉的分類對象的屬性,人臉的分類對象的屬性為自然數表示并作為該人臉的唯一標識,再接著向OPENCV視覺庫中的LBPH人臉識別器中載入用來存放人臉識別模型數據的文件中的訓練好的人臉識別模型數據,這樣就完成了人臉識別的初始化;最后啟動姓名識別子模塊來實現姓名識別的初始化,具體說來為按照<名稱,類別>的key-value序列方式構造用戶映射表,用戶的名稱為key,用戶的類別為value,用戶的名稱和用戶的類 別之間是一對一或者多對一的映射關系,接著依次通過初始化COM庫、創建語音識別引擎Recognizer對象、通過Recognizer對象來創建一個上下文對象、設置能將RecoContext對象與相關的消息處理函數聯系起來的消息通知機制、設置語音選項、創建默認的音頻輸入設備對象、將音頻輸入對象作為識別引擎對象的音頻輸入源、根據規則中定義的詞來最大限度的匹配從音頻輸入設備輸入的命令來編寫語法規則、載入語法規則、將語法規則對象設置成激活狀態以及別的命令通過ISpVoice接口輸出相應的語音信息的步驟來初始化語音識別和合成模塊,對于用戶名字的識別和存儲,通過對以<漢字,拼音>key-value對為存儲結構的表進行初始化,具體的內容是遍歷原始碼表Uni2Pinyin,分析原始碼表Uni2Pinyin件中的信息,將其中的信息按照<漢字,拼音>的格式作為全局表存儲起來,由此完成了姓名識別的初始化;
步驟3:運行多模態在線增量式來訪識別系統來讓攝像頭以及聲音傳感器處于工作狀態,首先等待被識別對象的語音輸入,即用戶需要通過聲音傳感器傳輸“你好”這樣的問候語句的語音信號數據來進入后續的識別階段,所述的問候語句的語音信號數據被語音識別和合成子模塊識別后,就依次執行設置激活聽寫狀態、把識別后的問候語句的語音信號數據轉化成對應的問候語句文字、把轉化后的對應的問候語句文字存儲在內存空間中;
步驟4:啟動攝像頭不斷采集環境的圖片,把環境的圖片送入電腦終端中啟動人臉判斷子模塊來調用OPENCV視覺庫中的Haar級聯分類器來判斷是否存在人臉圖像,如果存在人臉圖像,保存并返回人臉部分的圖像,把返回人臉部分的圖像轉換為灰度圖像,并放縮到設定的大小以及進行歸一化處理來滿足后續操作的要求,最后返回歸一化后的人臉部分的圖像;
步驟5:人臉判斷子模塊繼續利用保存在用來存放人臉識別模型數據的文件中的訓練好的人臉識別模型數據進行人臉預測,如果預測成功,返回用戶的類別所對應的用戶的名稱,如果預測失敗,返回錯誤提示信息;
步驟6:如果預測的結果同用戶的真實名稱一致,就對用戶進行成功預測的語音提示,如果預測的結果同用戶的真實名稱不一致,就對用戶進行錯誤預測的語音提示,并且提示用戶繼續通過聲音傳感器輸入用戶的真實名稱的語音數據信號,然后將該輸入用戶的真實名稱的語音數據信號轉化成文字信息,把該文字信 息和用戶的圖像存入電腦終端,更新第一配置文檔和第二配置文檔,最后執行步驟1重新訓練人臉識別模型;
步驟7:接著電腦終端通過操縱音響設備來對用戶發出“你找誰”這樣的詢問語音,然后當用戶通過聲音傳感器回應的語音數據傳輸到電腦終端中時,把語音數據轉化成語音文本,并通過該語音文本形成確認查找該語音文本對應的用戶名稱的語音信號數據,并把該語音信號數據通過音響設備播放,當用戶確認要尋找該用戶以后,電腦終端通過音響設備進行響應,而用戶否認要尋找該用戶以后,循環執行步驟7。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于南京大學,未經南京大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201410500366.5/1.html,轉載請聲明來源鉆瓜專利網。





