[發明專利]一種端到端的多模態人機交互指令識別方法在審
| 申請號: | 201611155383.5 | 申請日: | 2016-12-14 |
| 公開(公告)號: | CN108228285A | 公開(公告)日: | 2018-06-29 |
| 發明(設計)人: | 文鵬程;程岳;張磊;李亞暉;白林亭;謝建春 | 申請(專利權)人: | 中國航空工業集團公司西安航空計算技術研究所 |
| 主分類號: | G06F9/451 | 分類號: | G06F9/451;G06F3/01;G06F17/30;G06N3/04;G06K9/62 |
| 代理公司: | 中國航空專利中心 11008 | 代理人: | 杜永保 |
| 地址: | 710000 *** | 國省代碼: | 陜西;61 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 多模態人機交互 指令識別 多通道人機交互 指令 人工神經網絡 多模態交互 準確度 交互信息 交互指令 融合 模態 隱含 輸出 | ||
本發明屬于多通道人機交互技術領域,特別是涉及一種端到端的多模態人機交互指令識別方法。本發明提出一種端到端的多模態交互指令識別方法,這種方法各個交互指令同時進入深度人工神經網絡進行處理,直接輸出最終的融合指令,使得各種模態隱含的交互信息深層次融合,從而提高多模態人機交互指令的識別準確度。
技術領域
本發明屬于多通道人機交互技術領域,具體涉及一種端到端的多模態人機交互指令識別方法。
背景技術
隨著無人機技術的不斷發展,無人機地面站對自然人機交互的需求日趨旺盛。當前的無人機,通常攜帶多種傳感器,具有一定的自主巡航、碰撞規避與路徑選擇的智能能力。不過,這種智能能力還處于較低的水平,智能無人機必須在場景明晰、規則明確的特定條件下才具有自主學習與決策能力。因此,在未來的無人機地面站中,人需要利用自然人機交互的手段對無人機下達高層次的控制命令,做到人機高效協同,才能保證無人機智能的完成自身任務。然而,在現有的交互指令識別方法中,僅僅使用一種人機交互語言與無人機等進行人機交互的單模態人機交互技術,或者多種人機交互語言先分別識別后再進行融合的多模態人機交互技術,因為存在單模態識別精度低、多模態內在關聯信息損失嚴重等種種問題,它們難以給出準確的交互指令,甚至常常對無人機下達錯誤的交互指令,這在實際應用中是不可接受的。
發明內容
本發明的目的是:
解決現有人機交互單模態識別精度低、多模態內在關聯信息損失嚴重的問題。
本發明的技術解決方案是:
由于深度神經網絡具有非常復雜的網絡層級和網絡參數,能夠同時把多種交互信息輸入到網絡中進行隱含的相互作用,在計算中,能夠統一給出最終的融合結果,而不關心具體的融合過程,因此在端到端的系統設計中,具有明顯的優勢。
本發明的具體步驟如下:
第一步,將傳感器獲取的語音向量xs、觸控向量xt與手勢向量xg數據,輸入至深度神經網絡的前端數據緩沖區中,以便能同步送入深度神經網絡進行處理。
第二步,預處理深度神經網絡根據語音、觸控與手勢信號的不同特性,選擇相應的網絡類型,對它們進行不同的預處理。
語音信號采用如圖2所示的雙向長短時記憶神經網絡(LSTM)進行處理,經過多層計算得到的全連接層信號為ys。
觸控信號與手勢信號都具有圖像的特征,采用卷積神經網絡(CNN)進行處理。如圖3所示,觸控信號與手勢信號首先要進行多次的卷積與池化,并完成數據的降維。同時,在數據輸入到下一層之前,還必須進行一定的非線性映射,具體的映射策略如下:
對輸入信號m,僅當m>0的時候才輸出原值,它保證了輸入信號的多變性。
經過CNN輸出的全連接層信號為yg與yt。
第三步,對ys、yg與yt進行連接后,得到全連接特征信號:
y=[ys,yt,yg]T
該特征信號隱含了多模態交互的大量信息。
計算輸出待分類特征的特征向量p。
第四步,對特征向量進行softmax回歸。定義回歸參數向量θ,有k個交互信號,輸入樣本為p,輸出樣本為h(p),則最終輸出的系統函數為:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中國航空工業集團公司西安航空計算技術研究所,未經中國航空工業集團公司西安航空計算技術研究所許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201611155383.5/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種窗口顯示方法及終端
- 下一篇:繪制元素跟蹤方法及裝置





