[發明專利]智能家居多模態人機自然交互系統及其方法在審
| 申請號: | 202011339808.4 | 申請日: | 2020-11-25 |
| 公開(公告)號: | CN112462940A | 公開(公告)日: | 2021-03-09 |
| 發明(設計)人: | 奚雪峰;邵幫麗;崔志明;付保川;楊敬晶 | 申請(專利權)人: | 蘇州科技大學;蘇州金比特信息科技有限公司 |
| 主分類號: | G06F3/01 | 分類號: | G06F3/01;G06K9/00;G06K9/46;G06K9/62;G06N3/04;G06N3/08;G06T5/00;G06T5/30;G06T5/40;G06T7/11;G06T7/136;G06T7/90;G10L15/06;G10L15/22 |
| 代理公司: | 江蘇圣典律師事務所 32237 | 代理人: | 王玉國 |
| 地址: | 215513 江*** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 智能家居 多模態 人機 自然 交互 系統 及其 方法 | ||
本發明涉及一種智能家居多模態人機自然交互系統及方法,手勢識別模型預訓練模塊,利用符合場景的手勢數據集訓練搭建的網絡模型,并保存訓練好的手勢識別模型;語音識別模型預訓練模塊,利用中文語音數據集,依次訓練聲學模型和語言模型,并保存訓練好的語音識別模型;手勢識別模塊,利用保存好的手勢識別模型對采集的手勢進行預測;語音識別模塊,調用保存好的語音識別模型對采集的音頻進行識別;多模態融合模塊,對手勢識別模塊和語音識別模塊兩種模態結果進行融合,得出最終指令。將手勢識別與語音識別兩種模態融合,允許家居設備接收多種形式的指令,以提高指令的正確性。
技術領域
本發明涉及一種智能家居多模態人機自然交互系統及其方法,屬于智能家居人機交互領域。
背景技術
多模態融合主要用來實現不同模態間的模型融合,目的是用一個總的模型輸出多個信息渠道獲取的信息特征,這樣由于學習到多個模態的信息,模型就能獲得更全面的特征信息,并且做到即使某種模態失效或缺失時仍能正常工作,得到正確信息輸出,大大提高模型的魯棒性。因為被用來融合的這些模型之間往往并不相關,所以這些模型各自的錯誤也不會互相影響,因此不會造成錯誤的累加情況出現。
手勢識別的研究目的是設計出可以單純依靠手勢驅動的系統,隨著手勢的變化而做出不同的反應。手勢檢測與分割是首要任務,常規方法是通過手的膚色、形狀、像素值、運動等等視覺特征的組合來檢測手部動作,然后進行手勢跟蹤提供手或手指外觀位置的幀間坐標,從而產生手部運動的軌跡以便進行后續識別階段,手勢識別最后要實現的目標就是對所做手勢想表達的語義進行解釋。
語音識別本質是統計模式識別,依賴于兩個模型,聲學模型和語言模型,前者是文字和拼音的對應轉換,而后者是字詞在整個句子中出現的概率。聲學模型可以對語音的聲學特征進行分類,并將其對應到類似音素的單元,而語言模型可以把聲學模型獲得的音素拼接成一個完整句子,最后對識別的結果進行一些文本處理操作,就可以得到最終的結果。
智能家居已經發展到一定程度,但現有的智能家居人機交互仍存在著一些問題,借助遙控器或者手機進行的紅外遙控,通過按鍵或者觸屏進行操作,需要借助第三方移動設備,不夠便捷;依托語音助手控制家居設備,輸入數據來源單一,沒有充分利用人的肢體靈活性,不能解決接收模糊輸入問題等。手勢識別與語音識別以及多模態技術的發展為此提供一種解決方案。
發明內容
本發明的目的是克服現有技術存在的不足,提供一種智能家居多模態人機自然交互系統及其方法。
本發明的目的通過以下技術方案來實現:
智能家居多模態人機自然交互系統,其特點是:包含手勢識別模型預訓練模塊、語音識別模型預訓練模塊、手勢識別模塊、語音識別模塊和多模態融合模塊,所述手勢識別模型預訓練模塊,利用手勢數據集訓練搭建的網絡模型,并保存訓練好的手勢識別模型;所述語音識別模型預訓練模塊,加載中文語音數據集,依次訓練聲學模型和語言模型,并保存訓練好的語音識別模型;所述手勢識別模塊,利用手勢識別模型預訓練模塊保存的手勢識別模型對采集的手勢進行預測;所述語音識別模塊,調用語音識別模型預訓練模塊保存的語音識別模型對采集的音頻進行識別;所述多模態融合模塊,對手勢識別模塊和語音識別模塊兩種模態結果進行融合,得出最終指令。
進一步地,上述的智能家居多模態人機自然交互系統,其中,所述手勢識別模型預訓練模塊包含構建數據集模塊、數據預處理模塊、模型構建模塊和模型訓練模塊,所述構建數據集模塊,預設的五類標簽,即關閉close、打開open、調高up、調低down、無nothing各自對應采集同等數量的手勢圖片,并利用數據增強的方法擴大數據規模,為手勢識別模型訓練提供數據支撐;所述數據預處理模塊,經過去噪、膚色分割、二值化處理、形態學處理和輪廓提取,得到模型的標準化輸入;所述模型構建模塊,搭建網絡模型,用于提取手勢圖片特征;所述模型訓練模塊,將構建數據集模塊的數據集分批次作為模型構建模塊的網絡模型的輸入,利用反向傳播算法更新模型參數,并保存訓練好的手勢識別模型。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于蘇州科技大學;蘇州金比特信息科技有限公司,未經蘇州科技大學;蘇州金比特信息科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011339808.4/2.html,轉載請聲明來源鉆瓜專利網。





