[發明專利]一種基于Kinect的多模態人機交互系統在審
| 申請號: | 202010344331.2 | 申請日: | 2020-04-27 |
| 公開(公告)號: | CN111554279A | 公開(公告)日: | 2020-08-18 |
| 發明(設計)人: | 喻梅;衛俊賓;王建榮;于健;徐天一;趙滿坤;高曉陽 | 申請(專利權)人: | 天津大學 |
| 主分類號: | G10L15/20 | 分類號: | G10L15/20;G10L15/22;G06K9/00;G06K9/62;G06N3/04;G06N3/08 |
| 代理公司: | 天津市三利專利商標代理有限公司 12107 | 代理人: | 韓新城 |
| 地址: | 300072*** | 國省代碼: | 天津;12 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 kinect 多模態 人機交互 系統 | ||
1.一種基于Kinect的多模態人機交互系統,其特征在于,實現步驟如下:
S1.構建能接受Kinect獲取到的多模態數據的數據采集系統;
S2.使用基于Kaldi的開源語音識別工具集編寫訓練腳本,對采集到的音頻數據提取特征向量,進行聲學模型與語言模型的單音素訓練,得到最終的聲學識別模塊;
S3.利用采集到彩色圖數據建立用于訓練機器學習的唇動數據集;
S4.使用基于殘差神經網絡的卷積神經網絡的模型訓練方法,利用唇動數據集訓練唇讀識別模型,獲得最終唇讀識別模塊;
S5.將數據采集系統、語音識別模型和唇讀識別模型整合在一起,構建一個多模態的人機交互系統。
2.根據權利要求1所述基于Kinect的多模態人機交互系統,其特征在于,其中,唇動數據集的訓練使用Python語言的Pytorch模塊搭建LSTM網絡進行;該網絡包括:
第一處理部,用于數據預處理,輸入的張量為1x40x112x112,通過不斷的卷積和池化,將張量轉化為64個特征圖,所述特征圖的時空三個維度長都相等;
第二處理部,采用ResNet34層模型,能將輸入轉為一維512的張量,將唇動的特征進行進一步的篩選;
第三處理部,是一個雙層雙向長短期存儲網絡,最終再使用SoftMax層對于輸入進行分類,實現了對于唇動數據集的n分類。
3.根據權利要求1所述基于Kinect的多模態人機交互系統,其特征在于,所述的將數據采集系統、語音識別模型和唇讀識別模型整合在一起的步驟是:
通過WPF框架開發一個用戶控制臺,通過該用戶控制臺實現對數據采集系統、語音識別模型和唇讀識別模型的控制:識別處理時,系統對于用戶讀出的限定詞進行音頻和圖像的錄制并存儲到本地,進行數據轉換,將圖像和音頻轉為模型能夠接收的數據類型,并將數據分別輸入到聲學識別模塊和唇讀識別模塊中得出識別結果,系統將語音識別的結果和唇讀識別的結果遍歷限定詞分別計算出最高的相似度作為置信度,選擇置信度高的作為多模態識別的最終結果。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于天津大學,未經天津大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010344331.2/1.html,轉載請聲明來源鉆瓜專利網。





