[發明專利]一種跨模態識別機器人指令的方法及系統有效
| 申請號: | 202010789075.8 | 申請日: | 2020-08-07 |
| 公開(公告)號: | CN111914777B | 公開(公告)日: | 2021-07-06 |
| 發明(設計)人: | 劉文印;王思涵;陳俊洪;林大潤;朱展模 | 申請(專利權)人: | 廣東工業大學 |
| 主分類號: | G06K9/00 | 分類號: | G06K9/00;G06K9/62;G10L15/22 |
| 代理公司: | 北京集佳知識產權代理有限公司 11227 | 代理人: | 郭帥 |
| 地址: | 510060 廣東省*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 跨模態 識別 機器人 指令 方法 系統 | ||
本申請提供了一種跨模態識別機器人指令的方法與系統,包括:將獲取的各模態數據作為訓練集輸入至神經網絡中,經過訓練確立機器人指令識別模型;將待識別的各模態數據輸入至所述機器人指令識別模型中,輸出機器人指令。本發明提供的方法及系統,可以基于跨模態準確地識別出機器人指令,訓練模型所需的訓練集數據量小,在輸入中缺失任一模態或任一模態數據不平衡的情況下,本方法與系統仍能正常識別出機器人指令,人工標記的工作量小,實用性較強。
技術領域
本發明涉及信息技術領域,尤其涉及一種跨模態識別機器人指令的方法及系統。
背景技術
隨著機器人技術的不斷發展,智能機器人逐漸被運用至人們的日常生活中。機器人需要根據從視頻或語音不同跨模態中識別出的指令執行相應的動作。
現有的跨模態識別方法主要為以下三種:一是基于跨模態特征融合進行指令識別的方法;二是跨模態在特定少數指令上的指令識別的方法;三是基于跨模態局部特征的融合識別指令的方法。基于跨模態特征融合進行指令識別的方法需要同時擁有龐大視頻和音頻數據集,并且如果任意一種模態的數據較少或者缺失,都將導致系統無法使用。跨模態在特定少數指令上的指令識別的方法雖然需求的數據量較少,但是在真實使用場景中的人機交互性并不好,而且穩定性較差。基于跨模態局部特征的融合識別指令雖然在一些場景下能取得較好成績,但是他們所需要的人工標記工作量巨大,不太可能在現實場景中使用。
發明內容
基于此,本發明提供一種跨模態識別機器人指令的方法及系統,即使缺失任一模態,或者在數據不平衡的條件下也可以實現機器人指令的識別與提取。
為了達到上述發明目的,本申請采用如下技術方案:
第一方面,本申請公開一種跨模態識別機器人指令的方法,包括:
S1、將獲取的各模態數據作為訓練集輸入至神經網絡中,經過訓練確立機器人指令識別模型;
S2、將待識別的各模態數據輸入至所述機器人指令識別模型中,輸出機器人指令。
優選地,所述步驟S1中,所述機器人指令識別模型具體包括:
各模態低級特征提取模型、各模態指令特征提取模型、各模態特征選擇模型、特征融合模型。
優選地,所述步驟S1中,所述將獲取的各模態數據作為訓練集輸入至神經網絡中,經過訓練確立機器人指令識別模型,包括:
S11、將獲取的各模態數據輸入至對應的各模態低級特征提取模型中,提取所述各模態數據對應的各模態低級特征,輸出所述各模態低級特征;
S12、將所述各模態低級特征輸入至對應的各模態指令特征提取模型中,提取所述各模態低級特征對應的各模態指令特征,并將所述各模態指令特征轉化為相同維度,輸出所述各模態指令特征;
S13、將所述各模態指令特征輸入至對應的各模態特征選擇模型中,對所述各模態指令特征進行擬合選擇,輸出各模態擬合選擇后的指令特征;
S14、將所述各模態擬合選擇后的指令特征輸入至特征融合模型中,對所述各模態擬合選擇后的指令特征進行特征融合,輸出高級指令特征;
S15、將所述高級指令特征輸入至識別分類模型中,對所述高級指令特征進行識別分類,并將識別分類結果轉譯成機器人指令;
S16、獲取已標記的真實機器人指令,將所述機器人指令與所述已標記的真實機器人指令輸入至判決模型中,計算所述機器人指令與所述已標記的真實機器人指令對應的損失函數,將所述損失函數反饋至各模態低級特征提取模型、各模態指令特征提取模型、選擇模型;
S17、利用所述損失函數調整各模態低級特征提取模型、各模態指令特征提取模型、選擇模型的參數,更新各模態低級特征提取模型、各模態指令特征提取模型、選擇模型。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于廣東工業大學,未經廣東工業大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010789075.8/2.html,轉載請聲明來源鉆瓜專利網。





