[發明專利]一種基于相關物體感知的動作識別方法有效
| 申請號: | 202010531050.8 | 申請日: | 2020-06-11 |
| 公開(公告)號: | CN111797704B | 公開(公告)日: | 2023-05-02 |
| 發明(設計)人: | 梁爽;馬文韜;儲港;謝馳 | 申請(專利權)人: | 同濟大學 |
| 主分類號: | G06V40/20 | 分類號: | G06V40/20;G06V10/82;G06N3/0464;G06N3/048;G06N3/08;G06V10/74;G06V10/80;G06V10/764;G06V10/774 |
| 代理公司: | 上海科盛知識產權代理有限公司 31225 | 代理人: | 楊宏泰 |
| 地址: | 200092 *** | 國省代碼: | 上海;31 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 相關 物體 感知 動作 識別 方法 | ||
1.一種基于相關物體感知的動作識別方法,用于融合動作相關物體特征識別人物動作,其特征在于,包括以下步驟:
1)通過卷積神經網絡提取待識別圖像的特征圖;
2)獲取待識別圖像中的物體,并計算各物體與動作的相關性大小;
3)根據相關性大小篩選最相關物體,提取得到最相關物體特征;
4)獲取待識別圖像中的人物,提取人體特征;
5)融合人體特征與最相關物體特征,計算各動作的發生概率,完成圖像中人物動作的識別;
所述的步驟2)具體包括:
201)以輸入特征圖上每一個像素位置為中心,分別設置K個不同尺度的錨點框,作為物體候選框枚舉出待識別圖像中的物體;
202)計算各物體候選框對應的動作相關性分數:
使用一個3×3的卷積擴大特征圖上每一個像素對應的感受野,再使用K個1×1的卷積在特征圖的每一個像素位置上計算和物體候選框一一對應的動作相關性分數;
203)利用sigmoid函數將各物體候選框對應的動作相關性分數映射到0到1之間,得到標準動作相關性分數。
2.根據權利要求1所述的一種基于相關物體感知的動作識別方法,其特征在于,所述的步驟3)具體包括:
301)根據動作相關性分數,由高至低排列各物體候選框,構成候選框列表;
302)獲取候選框列表中重合比例大于設定重合閾值的物體候選框,作為重合候選框組;
303)從各重合候選框組中分別篩選出動作相關性分數最高的物體候選框,作為最相關物體,得到包含N個最相關物體候選框的最相關候選框列表;
304)對步驟1)輸出的特征圖應用RoI池化得到N個物體候選框對應的特征向量,并將特征向量乘以對應物體候選框的標準動作相關性分數,得到N個最相關物體特征。
3.根據權利要求2所述的一種基于相關物體感知的動作識別方法,其特征在于,所述的步驟303)還包括:
若從各重合候選框組中篩選出的物體候選框數量大于100,則只選取動作相關性分數最高的前100個物體候選框,作為N個最相關物體。
4.根據權利要求2所述的一種基于相關物體感知的動作識別方法,其特征在于,所述的設定重合閾值為0.7,所述的重合比例的計算公式為:
其中,A∩B表示第一物體框和第二物體框間相交區域面積,A∪B表示第一物體框和第二物體框的實際總面積。
5.根據權利要求1所述的一種基于相關物體感知的動作識別方法,其特征在于,所述的步驟5)具體包括:
501)對人體特征使用卷積層提取特征,并使用一層全連接層做分類器,得到各人體特征對應各動作類別的人體分類得分;
502)對最相關物體特征使用卷積層提取特征,并使用一層全連接層做分類器,得到各最相關物體特征對應各動作類別的物體分類得分;
503)選取每一動作類別中得分最高的物體,將對應物體分類得分與人體分類得分相加,得到最終分類得分:
其中,表示第m個人進行第a個類別的動作的最終分類得分,M為人體特征的數量,A為動作類別的數量;
504)對最終分類得分應用softmax函數,得到待識別人體進行每一類動作的概率,完成動作識別。
6.根據權利要求5所述的一種基于相關物體感知的動作識別方法,其特征在于,該方法在訓練時的損失函數Loss的表達式為:
其中,表示第m個人進行第a個類別的動作的最終得分,表示數據集提供的第m個人是否真的在進行第a個類別的動作的標簽,為真,值為1,反之為0。
7.根據權利要求1所述的一種基于相關物體感知的動作識別方法,其特征在于,所述的K個不同尺度的錨點框包括16個覆蓋的物體面積從162到5122的錨點框,其具體包括:
大小為16×16正方形像素區域的基礎錨點框,以及與基礎錨點框面積大小比例分別為2倍、4倍、8倍、16倍和32倍,長寬比例分別為0.5倍、1倍、2倍的共計15個不同尺度的錨點框。
8.根據權利要求1所述的一種基于相關物體感知的動作識別方法,其特征在于,所述的步驟1)具體包括:
101)在待識別圖像的四條邊用0填充10個像素寬的區域,并對填充完的圖像按原圖像大小進行隨機裁剪,并以0.5的概率對圖像進行水平翻轉;
102)將隨機翻轉后的圖像在RGB三個通道上分別減去ImageNet數據集上計算出的均值,并除以標準差,進行標準化處理;
103)使用ImageNet上預訓練的ResNet網絡的前四個卷積層,提取處理后圖像的特征圖。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于同濟大學,未經同濟大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010531050.8/1.html,轉載請聲明來源鉆瓜專利網。





