[發(fā)明專利]基于DETR的人物成對(duì)解碼交互的人與物交互檢測(cè)方法在審
| 申請(qǐng)?zhí)枺?/td> | 202210864552.1 | 申請(qǐng)日: | 2022-07-21 |
| 公開(公告)號(hào): | CN115147931A | 公開(公告)日: | 2022-10-04 |
| 發(fā)明(設(shè)計(jì))人: | 劉盛;張峰;陳俊皓;郭炳男;陳瑞祥 | 申請(qǐng)(專利權(quán))人: | 浙江工業(yè)大學(xué) |
| 主分類號(hào): | G06V40/20 | 分類號(hào): | G06V40/20;G06V10/764;G06V10/766;G06V10/80;G06V10/82;G06N3/04;G06N3/08 |
| 代理公司: | 杭州求是專利事務(wù)所有限公司 33200 | 代理人: | 忻明年 |
| 地址: | 310014 浙*** | 國(guó)省代碼: | 浙江;33 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 基于 detr 人物 成對(duì) 解碼 交互 檢測(cè) 方法 | ||
本發(fā)明公開了一種基于DETR的人物成對(duì)解碼交互的人與物交互檢測(cè)方法,將圖片通過訓(xùn)練好的DETR模型,獲得人物目標(biāo)框、目標(biāo)類別和查詢向量,從而減少模型訓(xùn)練時(shí)間。然后將查詢向量和目標(biāo)類別輸入到查詢向量分類器,得到人的查詢向量、物的查詢向量和物的類別;將物的類別輸入到語義網(wǎng)絡(luò),得到物的語義查詢向量,融合物的查詢向量和物的語義查詢向量,得到融合的物查詢向量,將融合的物查詢向量和人的查詢向量進(jìn)行合并,得到對(duì)象查詢向量。最后將對(duì)象查詢向量輸入到成對(duì)融合檢測(cè)網(wǎng)絡(luò),實(shí)現(xiàn)人物交互檢測(cè)。本發(fā)明提高了人與物交互檢測(cè)的精度,擴(kuò)大了網(wǎng)絡(luò)的感受野,提高了網(wǎng)絡(luò)的性能。
技術(shù)領(lǐng)域
本申請(qǐng)屬于人-物交互檢測(cè)技術(shù)領(lǐng)域,尤其涉及一種基于DETR的人物成對(duì)解碼交互的人與物交互檢測(cè)方法。
背景技術(shù)
人-物交互檢測(cè)是目標(biāo)檢測(cè)的下游任務(wù),是目前熱門的計(jì)算機(jī)視覺任務(wù)。相比于目標(biāo)檢測(cè)檢測(cè)目標(biāo)框和目標(biāo)類別,人-物交互檢測(cè)定位圖像中的交互人-物對(duì),并對(duì)動(dòng)作進(jìn)行分類。
在Transformer模型未被應(yīng)用在視覺任務(wù)前,人-物交互檢測(cè)算法往往使用卷積網(wǎng)絡(luò)提取視覺特征,如HO-RCNN,這是典型的基于卷積神經(jīng)網(wǎng)絡(luò)的人-物交互檢測(cè)算法,算法利用R-CNN定位相關(guān)區(qū)域,骨干網(wǎng)絡(luò)裁剪特征后再通過多分支融合特征;STIGPN則利用圖卷積迭代特征信息。但是這些方法仍存在著局限性,即傳統(tǒng)卷積網(wǎng)絡(luò)無法引入全局信息,同樣也會(huì)造成特征污染。
近期,基于端到端的檢測(cè)變換器網(wǎng)絡(luò)DETR(Detection Transformer)算法開始流行,其使用深度自注意力來代替卷積,能夠引入全局信息來完成集合預(yù)測(cè)。DETR算法是用于處理目標(biāo)檢測(cè)問題,因此將DETR引入目標(biāo)檢測(cè)下游任務(wù)人-物關(guān)系檢測(cè),乃至視覺的各領(lǐng)域是一個(gè)十分自然的想法。QPIC算法就是將DETR引入人-物關(guān)系交互檢測(cè)領(lǐng)域,將其作為一個(gè)基礎(chǔ)的檢測(cè)器,并提取相應(yīng)上下文信息,預(yù)測(cè)最終的三元組集合。
但是基于DETR直接完成三元組集合預(yù)測(cè)的相關(guān)人-物交互檢測(cè)算法仍存在著一些問題,其一是訓(xùn)練困難,這是Transformer模型帶來的劣勢(shì);其二是將單一的查詢(Query)作為一個(gè)整體預(yù)測(cè)特征,而忽視了多個(gè)查詢(Queries)之間的更符合直覺的特征聯(lián)系,因此需要設(shè)計(jì)一種特殊的結(jié)構(gòu)來融合相應(yīng)的特征聯(lián)系。同時(shí),最后所預(yù)測(cè)的human,object,interaction三元組缺少相應(yīng)的可靠性判斷,需要一個(gè)語義模型來進(jìn)行約束。
發(fā)明內(nèi)容
本申請(qǐng)?zhí)岢隽艘环N基于DETR的人物成對(duì)解碼交互的人與物交互檢測(cè)方法,來減少訓(xùn)練資源,結(jié)合語義模態(tài)提高人-物交互檢測(cè)精度。
為了實(shí)現(xiàn)上述目的,本申請(qǐng)技術(shù)方案如下:
一種基于DETR的人物成對(duì)解碼交互的人與物交互檢測(cè)方法,包括:
將原始圖像經(jīng)過骨干網(wǎng)絡(luò)得到的特征圖注入訓(xùn)練好DETR網(wǎng)絡(luò),所述DETR網(wǎng)絡(luò)包括編碼器、解碼器和MLP層,獲得解碼器輸出的查詢向量,以及DETR網(wǎng)絡(luò)最終輸出的目標(biāo)框及目標(biāo)類別;
將查詢向量和目標(biāo)類別輸入到查詢向量分類器,得到人的查詢向量、物的查詢向量和物的類別;
將物的類別輸入到語義網(wǎng)絡(luò),得到物的語義查詢向量;
融合物的查詢向量和物的語義查詢向量,得到融合的物查詢向量,將融合的物查詢向量和人的查詢向量進(jìn)行合并,得到對(duì)象查詢向量;
將對(duì)象查詢向量輸入到成對(duì)融合檢測(cè)網(wǎng)絡(luò),實(shí)現(xiàn)人物交互檢測(cè)。
進(jìn)一步的,所述語義網(wǎng)絡(luò)包括空間注意力模塊和語義聚合模塊,所述語義空間注意力模塊輸入特征為數(shù)據(jù)集的動(dòng)詞嵌入向量,輸出語義空間注意力特征;
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于浙江工業(yè)大學(xué),未經(jīng)浙江工業(yè)大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202210864552.1/2.html,轉(zhuǎn)載請(qǐng)聲明來源鉆瓜專利網(wǎng)。
- 經(jīng)由硅酸鹽的反向陽離子浮選精選錳礦石的方法
- 一種分子檢測(cè)SARS-CoV-2冠狀病毒的一步法試劑盒
- 基于深度學(xué)習(xí)的ERCP質(zhì)控方法、系統(tǒng)、存儲(chǔ)介質(zhì)及設(shè)備
- 混合動(dòng)力驅(qū)動(dòng)裝置
- 一種基于Transformer的缺陷檢測(cè)方法及系統(tǒng)
- 一種基于深度學(xué)習(xí)網(wǎng)絡(luò)的瑕疵點(diǎn)識(shí)別方法
- 無人機(jī)建筑航拍圖神經(jīng)網(wǎng)絡(luò)自動(dòng)校色方法
- 多尺度目標(biāo)檢測(cè)方法、裝置及計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)
- 一種基于DETR-YOLO的目標(biāo)檢測(cè)方法、裝置及存儲(chǔ)介質(zhì)
- 一種基于自注意力機(jī)制的通用圖像目標(biāo)檢測(cè)方法和裝置
- 呈現(xiàn)人物關(guān)系的方法及裝置
- 一種人臉識(shí)別安防考勤系統(tǒng)
- 一種用于人物關(guān)系抽取的方法和裝置
- 基于移動(dòng)終端的人物識(shí)別提醒系統(tǒng)及方法
- 智能游戲人物識(shí)別裝置、系統(tǒng)及方法
- 一種多視頻的目標(biāo)搜索方法、裝置及設(shè)備
- 基于社交網(wǎng)絡(luò)大數(shù)據(jù)的人物畫像模型構(gòu)建方法
- 一種人數(shù)分析統(tǒng)計(jì)方法及系統(tǒng)
- 查找目標(biāo)人物的方法、裝置、終端和計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)
- 進(jìn)行人物聚類的方法、裝置、服務(wù)器和存儲(chǔ)介質(zhì)





