[發(fā)明專利]一種基于非對稱多流的動作檢測方法有效
| 申請?zhí)枺?/td> | 201910458481.3 | 申請日: | 2019-05-29 |
| 公開(公告)號: | CN110263666B | 公開(公告)日: | 2021-01-19 |
| 發(fā)明(設(shè)計)人: | 王樂;康子健;劉子熠;鄭南寧 | 申請(專利權(quán))人: | 西安交通大學 |
| 主分類號: | G06K9/00 | 分類號: | G06K9/00;G06N3/04;G06N3/08 |
| 代理公司: | 西安通大專利代理有限責任公司 61200 | 代理人: | 范巍 |
| 地址: | 710049 *** | 國省代碼: | 陜西;61 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 稱多 動作 檢測 方法 | ||
本發(fā)明公開了一種基于非對稱多流的動作檢測方法,包括以下步驟:從先驗視頻中提取RGB圖像和光流,訓練獲得訓練好的RGB圖像單流網(wǎng)絡(luò)和光流單流網(wǎng)絡(luò);提取先驗視頻中每幀的圖像流特征信息和光流特征信息,結(jié)合動作標簽,訓練非對稱雙流網(wǎng)絡(luò);通過訓練好的RGB圖像單流網(wǎng)絡(luò)和光流單流網(wǎng)絡(luò),分別提取待檢測的目標視頻中每幀的圖像流特征信息和光流特征信息,獲得目標視頻的段特征并輸入訓練好的非對稱雙流網(wǎng)絡(luò),計算獲得視頻分類向量;從視頻分類向量中選擇出潛在動作,獲得潛在動作的動作識別序列;通過動作識別序列完成動作的檢測。本發(fā)明的動作檢測方法,考慮到了圖像流和光流之間的不對稱性,可提升動作識別和動作檢測的準確率。
技術(shù)領(lǐng)域
本發(fā)明屬于計算機視覺與模式識別技術(shù)領(lǐng)域,特別涉及一種基于非對稱多流的動作檢測方法。
背景技術(shù)
對視頻動作的發(fā)現(xiàn)和分割是視頻處理領(lǐng)域中重要的研究內(nèi)容,被廣泛運用在動作追蹤和發(fā)現(xiàn)中,具有很大的理論研究價值和實際應(yīng)用價值。其中,利用弱監(jiān)督數(shù)據(jù)實現(xiàn)的動作檢測方法只需要少量人工標注就可以獲得很好的性能。弱監(jiān)督實現(xiàn)的動作檢測方法從視頻級別的標簽進行建模,通過注意力機制判斷視頻幀是否包含動作。
為了對幀建模,大多數(shù)方法首先對視頻序列進行處理,提取圖像流和光流并融合,接著利用視頻標簽訓練,再根據(jù)視頻幀對網(wǎng)絡(luò)逐幀進行激活判別。在弱監(jiān)督動作檢測方法中,傳統(tǒng)的雙流結(jié)合方式將雙流看作是對稱的,帶來了很強的過擬合,無法準確定位動作。
發(fā)明內(nèi)容
本發(fā)明的目的在于提供一種基于非對稱多流的動作檢測方法,以解決上述存在的一個或多個技術(shù)問題。本發(fā)明的動作檢測方法,考慮到了圖像流和光流之間的不對稱性,可提升動作識別和動作檢測的準確率。
為達到上述目的,本發(fā)明采用以下技術(shù)方案:
一種基于非對稱多流的動作檢測方法,包括以下步驟:
步驟1,采集若干已標注視頻標簽的先驗視頻,從先驗視頻的幀信息中提取RGB圖像和光流;通過提取的RGB圖像并結(jié)合視頻標簽訓練卷積神經(jīng)網(wǎng)絡(luò),獲得訓練好的RGB圖像單流網(wǎng)絡(luò);通過提取的光流并結(jié)合視頻標簽訓練卷積神經(jīng)網(wǎng)絡(luò),獲得訓練好的光流單流網(wǎng)絡(luò);
步驟2,通過步驟1獲得的訓練好的RGB圖像單流網(wǎng)絡(luò)和光流單流網(wǎng)絡(luò),分別提取步驟1采集的先驗視頻中每幀的圖像流特征信息和光流特征信息;
步驟3,根據(jù)步驟2提取的圖像流特征信息和光流特征信息,并結(jié)合動作標簽,訓練非對稱雙流網(wǎng)絡(luò),最終獲得訓練好的非對稱雙流網(wǎng)絡(luò);其中,非對稱雙流網(wǎng)絡(luò)訓練的過程包括:將圖像流特征信息和光流特征信息結(jié)合作為輸入,輸出多流分類結(jié)果和多流注意力權(quán)重,加權(quán)多流分類結(jié)果獲得視頻分類向量,最小化非對稱雙流網(wǎng)絡(luò)的損失函數(shù);
步驟4,通過步驟1獲得的訓練好的RGB圖像單流網(wǎng)絡(luò)和光流單流網(wǎng)絡(luò),分別提取待檢測的目標視頻中每幀的圖像流特征信息和光流特征信息;
步驟5,根據(jù)步驟4提取的圖像流特征信息和光流特征信息,獲得目標視頻的段特征;將目標視頻的段特征輸入步驟3獲得的訓練好的非對稱雙流網(wǎng)絡(luò),輸出段分類向量和段注意力權(quán)重;根據(jù)段分類向量和段注意力權(quán)重計算獲得視頻分類向量;
步驟6,從步驟5獲得的視頻分類向量中選擇置信度大于預(yù)設(shè)值的動作作為潛在動作;其中,對于潛在動作a,從步驟5中獲得的段分類向量中抽取潛在動作a的分類權(quán)重,獲得潛在動作a的動作識別序列;通過潛在動作a的動作識別序列完成動作a的檢測。
本發(fā)明的進一步改進在于,步驟3的非對稱雙流網(wǎng)絡(luò)訓練的過程中,圖像流和光流信息結(jié)合的方式為:將光流特征信息作為主信息流;
將圖像流特征信息和光流特征信息進行降維與融合后,作為輔助信息流;
將主信息流與輔助信息流拼合獲得雙流特征信息。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于西安交通大學,未經(jīng)西安交通大學許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910458481.3/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 同類專利
- 專利分類
G06K 數(shù)據(jù)識別;數(shù)據(jù)表示;記錄載體;記錄載體的處理
G06K9-00 用于閱讀或識別印刷或書寫字符或者用于識別圖形,例如,指紋的方法或裝置
G06K9-03 .錯誤的檢測或校正,例如,用重復(fù)掃描圖形的方法
G06K9-18 .應(yīng)用具有附加代碼標記或含有代碼標記的打印字符的,例如,由不同形狀的各個筆畫組成的,而且每個筆畫表示不同的代碼值的字符
G06K9-20 .圖像捕獲
G06K9-36 .圖像預(yù)處理,即無須判定關(guān)于圖像的同一性而進行的圖像信息處理
G06K9-60 .圖像捕獲和多種預(yù)處理作用的組合





