[發明專利]基于類別索引學習的人-物交互分類方法在審
| 申請號: | 202310242403.6 | 申請日: | 2023-03-14 |
| 公開(公告)號: | CN116363749A | 公開(公告)日: | 2023-06-30 |
| 發明(設計)人: | 梁爽;謝馳;王頡文;錢瑞昊;趙生捷 | 申請(專利權)人: | 同濟大學 |
| 主分類號: | G06V40/20 | 分類號: | G06V40/20;G06V10/74;G06V10/764;G06V10/766;G06V10/80;G06V10/82;G06N3/0455;G06N3/0464;G06N3/048;G06N3/08 |
| 代理公司: | 上海德昭知識產權代理有限公司 31204 | 代理人: | 陳龍梅 |
| 地址: | 200092 *** | 國省代碼: | 上海;31 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 類別 索引 學習 交互 分類 方法 | ||
1.一種基于類別索引學習的人-物交互分類方法,其特征在于,用于根據人-物交互圖像和K個由不同的圖像類別生成的類別索引得到所述人-物交互圖像的交互識別結果,包括以下步驟:
步驟S1,將所述人-物交互圖像輸入基線人-物對檢測器,得到圖像特征I和n個人-物交互實例特征;
步驟S2,將所述圖像特征I和K個所述類別索引輸入transformer網絡,得到K個更新后類別索引;
步驟S3,將K個所述更新后類別索引輸入圖像分類分數網絡,得到所述人-物交互圖像對應各個所述圖像類別的K個圖像分類分數;
步驟S4,將所述K個更新后類別索引作為對應所述圖像類別的分類權重,依次與所述n個人-物交互實例特征計算余弦相似度,得到各個所述人-物交互實例特征在K個所述圖像類別上的實例分類分數;
步驟S5,將所述K個圖像分類分數從大到小進行排序,選擇前κ個所述圖像分類分數作為保留分數,κ個所述保留分數對應的所述圖像類別作為預測圖像類別;
步驟S6,對每個所述人-物交互實例特征,依次選取所述人-物交互實例特征在所述預測圖像類別上的所述實例分類分數構建初始硬分數集,通過κ個可學習參數[τ1,…,τκ]對所述初始硬分數集進行調整,得到所述人-物交互實例特征的硬分數集;
步驟S7,將所述人-物交互實例特征的所述硬分數集和所述κ個保留分數進行軟分數融合,得到所述人-物交互實例特征的軟分數集,所述人-物交互圖像的所有所述人-物交互實例特征的所述軟分數集為所述人-物交互圖像的所述交互識別結果。
2.根據權利要求1所述的基于類別索引學習的人-物交互分類方法,其特征在于:
其中,在所述步驟S1中,所述基線人-物對檢測器包括特征提取網絡和人-物對檢測網絡,所述步驟S1包括以下子步驟:
步驟S1-1,將所述人-物交互圖像輸入所述特征提取網絡,得到所述圖像特征I;
步驟S1-2,將所述圖像特征I輸入所述人-物對檢測網絡,得到所述n個人-物交互實例特征。
3.根據權利要求1所述的基于類別索引學習的人-物交互分類方法,其特征在于:
其中,在所述步驟S2中,所述transformer網絡為多層的transformer解碼器。
4.根據權利要求1所述的基于類別索引學習的人-物交互分類方法,其特征在于:
其中,通過訓練樣本對所述步驟S3中的所述圖像分類分數網絡進行訓練時,使用的損失函數為圖像分類損失函數Limg,所述圖像分類損失函數Limg的計算公式如下:
p′k=max(pk-m,0),
式中K為訓練樣本中圖像類別的總數,γ+、γ-和m均為超參數,pk為根據訓練樣本中輸入的訓練人-物交互圖像得到的所述圖像分類分數,yk為訓練樣本中的第k個圖像類別的標簽,yk=1表示第k個圖像類別存在于所述訓練人-物交互圖像,yk=0表示第k個圖像類別不存在于所述訓練人-物交互圖像。
5.根據權利要求4所述的基于類別索引學習的人-物交互分類方法,其特征在于:
其中,所述訓練樣本中的第k個圖像分類分數pk的計算公式如下:
pk=sigmoid(FC(Q′k)),
式中Q′k為訓練中第k個所述類別索引對應的所述更新后類別索引,FC()為全連接層操作,sigmoid()為sigmoid操作。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于同濟大學,未經同濟大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202310242403.6/1.html,轉載請聲明來源鉆瓜專利網。





