[發(fā)明專利]一種基于堆疊遞歸單元的多級殘差網(wǎng)絡(luò)的動作識別方法在審
| 申請?zhí)枺?/td> | 201810081796.6 | 申請日: | 2018-01-29 |
| 公開(公告)號: | CN108280436A | 公開(公告)日: | 2018-07-13 |
| 發(fā)明(設(shè)計)人: | 夏春秋 | 申請(專利權(quán))人: | 深圳市唯特視科技有限公司 |
| 主分類號: | G06K9/00 | 分類號: | G06K9/00;G06N3/08;G06N3/04 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 518057 廣東省深圳市高新技術(shù)產(chǎn)業(yè)園*** | 國省代碼: | 廣東;44 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 殘差 遞歸 堆疊 動作識別 網(wǎng)絡(luò) 映射 激活 動作預(yù)測 光照變化 快速移動 時間步驟 視點變化 視頻表示 網(wǎng)絡(luò)表示 信息結(jié)合 預(yù)測結(jié)果 整體效率 殘差塊 堆疊層 數(shù)據(jù)集 構(gòu)建 推入 遮擋 融合 輸出 預(yù)測 | ||
1.一種基于堆疊遞歸單元的多級殘差網(wǎng)絡(luò)的動作識別方法,其特征在于,主要包括殘差網(wǎng)絡(luò)(一);堆疊遞歸單元(二);數(shù)據(jù)集(三)。
2.基于權(quán)利要求書1所述的殘差網(wǎng)絡(luò)(一),其特征在于,殘差網(wǎng)絡(luò)(ResNet)將所需的殘差映射表示為Φ(x),并且針對每個被稱為構(gòu)建塊的堆疊層描述F(x)=Φ(x)-x的另一映射;每個塊根據(jù)深度的要求包含兩層或三層,其中兩層為3×3和3×3卷積核,三層分別為1×1,3×3和1×1的卷積核;修正線性單元(ReLU)激活層之間用于引入非線性;采用1×1卷積核的目的是在保持相似時間復(fù)雜度的同時降低計算復(fù)雜度;通過參照層的輸入,學(xué)習(xí)殘差函數(shù)可以解決隨深度增加而引起的退化問題,且易于優(yōu)化;一般情況下,ResNet由多個殘留塊組成,每個塊從下到上執(zhí)行短連接,其信息從淺層流向深層;使用ResNet-34來構(gòu)建不同級別的表示。
3.基于權(quán)利要求書2所述的ResNet-34,其特征在于,選擇最后三組殘差塊的輸出激活作為Al,Am,Ah的低、中、高級表示,并分別命名ResNet-34的不同層的低、中、高級;然后將這些外觀表示推入堆疊遞歸單元(SRU)中以獲得時間和深度上的視頻表示;
考慮ResNet-34層,輸出激活張量A∈RC×H×W可以表示為:
Alevel=[Al1,Al2,…,AtN],Al,i∈RC (1)
其中,level∈[低,中,高],N=H×W;特別地,Al∈R128×28×28,Am∈R256×14×14,Al∈R512×7×7;平均這些激活張量A∈RC×H×W,并產(chǎn)生描述符xfeature∈RC,饋入SRU。
4.基于權(quán)利要求書1所述的堆疊遞歸單元(二),其特征在于,遞歸過程中門狀態(tài)的計算依賴于前一個時間隱藏狀態(tài)ht-1,這大大緩解了計算速度;門狀態(tài)的計算如下所示:
Statei,t=σ(Wxixt+Whiht-1+bi) (2)
其中,在時刻t,Statei,t表示輸入門狀態(tài)、隱藏門狀態(tài)和忘記門狀態(tài);顯然,最后一步的隱藏ht-1被用于確定門狀態(tài);基于此,使用SRU來處理幀的時間信息;SRU架構(gòu)如下所示:
ft=σ(Wfxt+bf) (4)
rt=σ(Wrxt+br) (5)
其中,ft和rt是S型函數(shù)門,稱為遺忘門和復(fù)位門;g(·)是雙曲正切函數(shù);SRU通過在遞歸過程中舍棄ht-1,簡化狀態(tài)計算;內(nèi)部狀態(tài)ct的更新仍然取決于之前的狀態(tài)ct-1;輸入向量xt被傳遞到SRU模塊,ft,Rt可以同時計算出來;公式(6)和公式(7)的操作是元素級別的;之后進行平均激活張量。
5.基于權(quán)利要求書4所述的平均激活張量,其特征在于,如公式(1),平均激活張量如下式所示:
作為framet的定長矢量表示,并在時間步t將其放入SRU中;使用不同方法來融合每個時間步驟的所有預(yù)測,采用平均池和最大池來進行最終的動作預(yù)測。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于深圳市唯特視科技有限公司,未經(jīng)深圳市唯特視科技有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810081796.6/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 同類專利
- 專利分類
G06K 數(shù)據(jù)識別;數(shù)據(jù)表示;記錄載體;記錄載體的處理
G06K9-00 用于閱讀或識別印刷或書寫字符或者用于識別圖形,例如,指紋的方法或裝置
G06K9-03 .錯誤的檢測或校正,例如,用重復(fù)掃描圖形的方法
G06K9-18 .應(yīng)用具有附加代碼標記或含有代碼標記的打印字符的,例如,由不同形狀的各個筆畫組成的,而且每個筆畫表示不同的代碼值的字符
G06K9-20 .圖像捕獲
G06K9-36 .圖像預(yù)處理,即無須判定關(guān)于圖像的同一性而進行的圖像信息處理
G06K9-60 .圖像捕獲和多種預(yù)處理作用的組合





