[發(fā)明專利]一種人體意圖識別方法、系統(tǒng)以及存儲介質(zhì)有效
| 申請?zhí)枺?/td> | 202010699862.3 | 申請日: | 2020-07-20 |
| 公開(公告)號: | CN111967334B | 公開(公告)日: | 2023-04-07 |
| 發(fā)明(設計)人: | 閆野;吳競寒;印二威;謝良;鄧寶松;范曉麗;羅治國;閆慧炯;楊超 | 申請(專利權)人: | 中國人民解放軍軍事科學院國防科技創(chuàng)新研究院;天津(濱海)人工智能軍民融合創(chuàng)新中心 |
| 主分類號: | G06F18/10 | 分類號: | G06F18/10;G06F18/24;G06F18/25;G06F40/30;G06N3/0464;G06N3/08 |
| 代理公司: | 北京辰權知識產(chǎn)權代理有限公司 11619 | 代理人: | 劉廣達 |
| 地址: | 100071*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 人體 意圖 識別 方法 系統(tǒng) 以及 存儲 介質(zhì) | ||
1.一種人體意圖識別方法,其特征在于,所述方法包括:
實時采集當前人體的特征信號;
基于所述特征信號生成所述當前人體對應的多源數(shù)據(jù)特征以及眼睛選定的注視點坐標;
識別所述多源數(shù)據(jù)特征以及眼睛選定的注視點坐標,生成所述多源數(shù)據(jù)特征對應的語音文本以及所述注視點坐標對應的場景圖像描述文本;其中,
所述識別所述多源數(shù)據(jù)特征以及眼睛選定的注視點坐標,生成所述多源數(shù)據(jù)特征對應的語音文本以及所述注視點坐標對應的場景圖像描述文本,包括:
將所述多源數(shù)據(jù)特征進行稠密編碼,生成編碼后的多源數(shù)據(jù)特征;
將所述編碼后的多源數(shù)據(jù)特征輸入至預先訓練的Bert網(wǎng)絡模型中,生成所述多源數(shù)據(jù)特征對應的語音信息;
利用集束搜索算法的n-gram語言模型將所述多源數(shù)據(jù)特征對應的語音信息進行文本合成,生成所述多源數(shù)據(jù)特征對應的語音文本;
對所述眼睛選定的注視點坐標進行編碼,生成所述注視點坐標對應的場景圖像描述文本;其中,
所述對所述眼睛選定的注視點坐標進行編碼,生成所述注視點坐標對應的場景圖像描述文本,包括:
根據(jù)所述眼睛選定的注視點坐標生成眼睛選定的場景圖像;
利用ResNet101的Fast?R-CNN算法對所述場景圖像依次進行圖像分割、目標檢測以及坐標信息識別,生成編碼信息;
基于所述編碼信息進行編碼建模,生成所述注視點坐標對應的場景圖像描述文本;
針對所述語音文本以及場景圖像描述文本進行實體抽取,生成所述語音文本以及場景圖像描述文本對應的實體片段;
采用共指消解算法處理所述實體片段,生成目標對象;
基于所述語音文本、場景圖像描述文本以及目標對象,生成人體意圖識別結果;其中,
所述基于所述語音文本、場景圖像描述文本以及目標對象,生成人體意圖識別結果,包括:
針對所述語音文本、場景圖像描述文本以及目標對象進行文本語義分析,生成文本的編碼;
將所述文本的編碼和預先定義的元組進行關聯(lián),生成可執(zhí)行的實例化元組;
根據(jù)所述實例化元組生成語義分析結果和表征結果;
將所述語義分析結果和表征結果確定為人體意圖識別結果。
2.根據(jù)權利要求1所述的方法,其特征在于,所述生成人體意圖識別結果之后,還包括:
將所述人體意圖識別結果進行顯示并發(fā)送至外接設備,控制所述外接設備執(zhí)行功能。
3.根據(jù)權利要求1或2所述的方法,其特征在于,所述特征信號包括音頻信號、唇部圖像信號、面部肌電信號和眼睛圖像信號;
所述基于所述特征信號生成所述當前人體對應的多源數(shù)據(jù)特征以及眼睛選定的注視點坐標,包括:
分別將所述音頻信號、唇部圖像信號、面部肌電信號進行數(shù)據(jù)預處理,生成所述當前人體對應的多源數(shù)據(jù)特征;
對所述眼睛圖像信號進行注視點坐標提取,生成所述當前人體對應的眼睛選定的注視點坐標。
4.根據(jù)權利要求3所述的方法,其特征在于,所述分別將所述音頻信號、唇部圖像信號、面部肌電信號進行數(shù)據(jù)預處理,生成所述當前人體對應的多源數(shù)據(jù)特征,包括:
對所述音頻信號進行分幀和加窗處理,生成音頻信號數(shù)據(jù)特征;
提取所述面部肌電信號的梅爾倒譜系數(shù),生成面部肌電信號數(shù)據(jù)特征;
將所述唇部?圖像信號進行灰度圖轉化,并使用濾波器進行濾波,生成唇部?圖像信號數(shù)據(jù)特征;
將所述音頻信號數(shù)據(jù)特征、面部肌電信號數(shù)據(jù)特征以及唇部?圖像信號數(shù)據(jù)特征確定為所述當前人體對應的多源數(shù)據(jù)特征。
5.根據(jù)權利要求3所述的方法,其特征在于,所述對所述眼睛圖像信號進行注視點坐標提取,生成所述當前人體對應的眼睛選定的注視點坐標,包括:
將所述眼睛圖像信號輸入預先訓練的注視點映射模型中,生成所述當前人體對應的眼睛選定的注視點坐標。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中國人民解放軍軍事科學院國防科技創(chuàng)新研究院;天津(濱海)人工智能軍民融合創(chuàng)新中心,未經(jīng)中國人民解放軍軍事科學院國防科技創(chuàng)新研究院;天津(濱海)人工智能軍民融合創(chuàng)新中心許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業(yè)授權和技術合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010699862.3/1.html,轉載請聲明來源鉆瓜專利網(wǎng)。





