[發(fā)明專利]一種基于運(yùn)動(dòng)軌跡的3D卷積神經(jīng)網(wǎng)絡(luò)的行為識(shí)別方法有效
| 申請(qǐng)?zhí)枺?/td> | 201810748903.6 | 申請(qǐng)日: | 2018-07-10 |
| 公開(kāi)(公告)號(hào): | CN109255284B | 公開(kāi)(公告)日: | 2021-02-12 |
| 發(fā)明(設(shè)計(jì))人: | 趙凡;吉璐;藺廣逢;陳亞軍 | 申請(qǐng)(專利權(quán))人: | 西安理工大學(xué) |
| 主分類號(hào): | G06K9/00 | 分類號(hào): | G06K9/00;G06K9/62 |
| 代理公司: | 西安弘理專利事務(wù)所 61214 | 代理人: | 杜娟 |
| 地址: | 710048*** | 國(guó)省代碼: | 陜西;61 |
| 權(quán)利要求書: | 查看更多 | 說(shuō)明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 運(yùn)動(dòng) 軌跡 卷積 神經(jīng)網(wǎng)絡(luò) 行為 識(shí)別 方法 | ||
1.一種基于運(yùn)動(dòng)軌跡的3D卷積神經(jīng)網(wǎng)絡(luò)的行為識(shí)別方法,其特征在于,具體按照以下步驟實(shí)施:
步驟一,行為識(shí)別網(wǎng)絡(luò)模型訓(xùn)練,具體按照以下步驟實(shí)施:
步驟1,建立行為識(shí)別數(shù)據(jù)集,數(shù)據(jù)集包含N種行為類別,第n種行為的視頻個(gè)數(shù)記為Vnumn,0≤n≤N-1,在第n種行為視頻中按順序抽取前Kn個(gè)視頻作為訓(xùn)練視頻,Kn=round(3/4×Vnumn),把所有抽取的訓(xùn)練視頻作為訓(xùn)練數(shù)據(jù)集Vtrain,其中表示在訓(xùn)練數(shù)據(jù)集中第n種行為類別下的第k個(gè)視頻;測(cè)試數(shù)據(jù)集表示測(cè)試數(shù)據(jù)集中第n種行為類別下的第s個(gè)視頻;
步驟2,創(chuàng)建訓(xùn)練標(biāo)簽Labeltrain與測(cè)試標(biāo)簽Labeltest,在訓(xùn)練數(shù)據(jù)集Vtrain中,第n種行為類別下的第k個(gè)視頻的視頻幀數(shù)為以互不重疊的連續(xù)16幀圖像為一個(gè)視頻段,提取的視頻段個(gè)數(shù)為表示第n種行為類別下的第k個(gè)視頻的第m個(gè)視頻段;
訓(xùn)練標(biāo)簽Labeltrain的格式為:其中為視頻路徑VideoPath/Vtrainn下的視頻文件名(m-1)×16為每個(gè)視頻段起始幀號(hào),n為行為類別編號(hào);
在測(cè)試數(shù)據(jù)集Vtest中,第n種行為類別下的第s個(gè)視頻的視頻幀數(shù)為以互不重疊的連續(xù)16幀圖像為一個(gè)視頻段,提取的視頻段個(gè)數(shù)為表示第n種行為類別下的第s個(gè)視頻的第w個(gè)視頻段;
測(cè)試標(biāo)簽Labeltest格式為:
其中為視頻路徑VideoPath/Vtestn下的視頻文件名(w-1)×16為每個(gè)視頻段起始幀號(hào),n為行為類別編號(hào);
步驟3,雙向光流計(jì)算,獲取前向、后向運(yùn)動(dòng)軌跡列表,對(duì)輸入的視頻段數(shù)據(jù)進(jìn)行雙向光流場(chǎng)計(jì)算,獲取視頻前向運(yùn)動(dòng)軌跡列表pos_pre={pos_pre[i][j]},pos_pre[i][j]表示第i幀視頻圖像第j個(gè)像素在前一幀視頻圖像中的對(duì)應(yīng)像素點(diǎn)位置,其中,1≤j≤w′×h,w′、h分別表示視頻圖像的寬和高,1<i≤16;后向運(yùn)動(dòng)軌跡列表pos_back={pos_back[i][j]},pos_back[i][j]表示第i幀視頻圖像第j個(gè)像素在后一幀視頻圖像中的對(duì)應(yīng)像素點(diǎn)位置,其中,1≤j≤w′×h,1≤i<16;具體按照以下步驟實(shí)施:
步驟3.1,將輸入的視頻段數(shù)據(jù)轉(zhuǎn)化為灰度圖像集{img_gray[i]|1≤i≤16};
步驟3.2,采用光流計(jì)算方法進(jìn)行視頻灰度圖像img_gray[i]的前向和后向運(yùn)動(dòng)軌跡提取;步驟3.2具體按照以下步驟實(shí)施:
步驟(1),當(dāng)前視頻幀圖像img_gray[i]的像素坐標(biāo)表示為:其中和分別為img_gray[i]中第j像素在圖像中的橫坐標(biāo)和縱坐標(biāo);
步驟(2),獲取當(dāng)前視頻幀圖像img_gray[i]的前一幀圖像img_pre與后一幀圖像img_back,其中img_pre=img_gray[i-1],img_back=img_gray[i+1];若當(dāng)i=1時(shí),表示當(dāng)前幀沒(méi)有前一幀圖像,則把img_pre置為空;若當(dāng)i=16時(shí),表示當(dāng)前幀沒(méi)有后一幀圖像,則把img_back置為空;
步驟(3),計(jì)算相鄰兩幀圖像的光流場(chǎng),采用光流場(chǎng)計(jì)算方法分別計(jì)算img_gray[i]與img_pre、img_back之間的前向光流場(chǎng)和后向光流場(chǎng)ω_pre[i],ω_back[i],分別對(duì)應(yīng)img_gray[i]中第j個(gè)像素相對(duì)img_pre的水平和垂直運(yùn)動(dòng)位移量,分別對(duì)應(yīng)img_gray[i]中第j個(gè)像素相對(duì)img_back的水平和垂直運(yùn)動(dòng)位移量;
步驟(4),根據(jù)光流場(chǎng)生成img_gray[i]的前向運(yùn)動(dòng)軌跡列表Pfij是img_gray[i]中第j個(gè)像素在img_pre中的對(duì)應(yīng)像素點(diǎn)位置,
步驟(5),根據(jù)光流場(chǎng)生成img_gray[i]的后向運(yùn)動(dòng)軌跡列表是img_gray[i]中第j個(gè)像素在img_back中的對(duì)應(yīng)像素點(diǎn)位置,
步驟4,根據(jù)步驟3得到的運(yùn)動(dòng)軌跡列表,把視頻段數(shù)據(jù)轉(zhuǎn)換成N1×N2大小的數(shù)據(jù)矩陣N1=81,N2=16×w′×h,c表示顏色通道,取值為1,2和3,imgc[i]中第j個(gè)像素點(diǎn)位置是根據(jù)i和j的取值在前向軌跡列表pos_pre中得到前向匹配像素點(diǎn)位置Pfij,Pfij=pos_pre[i][j],在后向軌跡列表pos_back中得到后向匹配像素點(diǎn)位置在imgc[i-1]、imgc[i]和imgc[i+1]圖像中分別提取和Pfij這三個(gè)位置的像素點(diǎn)在各個(gè)通道上的3×3鄰域像素值,將三個(gè)通道上的各鄰域像素值串行合并,將合并后數(shù)據(jù)放在矩陣中的第(i-1)×(w′×h)+j列;步驟4具體按照以下步驟實(shí)施:
步驟4.1,根據(jù)imgc[i]中第j個(gè)像素點(diǎn)位置獲取以為中心的3×3大小在c通道上的鄰域像素值
步驟4.2,在前向運(yùn)動(dòng)軌跡列表pos_pre中得到前向匹配像素點(diǎn)位置步驟4.2具體為:
①判斷i是否為1;
②若i=1,該像素點(diǎn)所在圖像沒(méi)有前向列表,則該像素點(diǎn)在前一幀圖像中對(duì)應(yīng)的像素點(diǎn)位置把以Pfij為中心的3×3大小在c通道上的鄰域像素值均置為0;
③若i≠1,在前向運(yùn)動(dòng)軌跡列表pos_pre中得到前向匹配像素點(diǎn)位置獲取以Pfij為中心的3×3大小在c通道中的鄰域像素值
步驟4.3,在后向運(yùn)動(dòng)軌跡列表pos_back中得到后向匹配像素點(diǎn)位置具體按照以下步驟實(shí)施:
①判斷i是否為16;
②若i=16,該像素點(diǎn)所在圖像沒(méi)有后向列表,則該像素點(diǎn)在后一幀圖像中對(duì)應(yīng)的像素點(diǎn)位置把以為中心的3×3大小在c通道上的鄰域像素值置為0;
③若i≠16,在后向運(yùn)動(dòng)軌跡列表pos_back中得到后向匹配像素點(diǎn)位置獲取以為中心的3×3大小在c通道上的鄰域像素值
步驟4.4,將逐通道進(jìn)行串行合并,將合并后數(shù)據(jù)放置在矩陣中的第(i-1)×(w′×h)+j列;
步驟5,建立基于運(yùn)動(dòng)軌跡的3D卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)Track_3D,該網(wǎng)絡(luò)的輸入為訓(xùn)練數(shù)據(jù)集Vtrain,大小為C×16×w′×h,其中C=3為通道個(gè)數(shù),16為連續(xù)視頻幀數(shù),w′×h為視頻圖像的分辨率,網(wǎng)絡(luò)結(jié)構(gòu)的總層數(shù)為30層,包括依次連接的:數(shù)據(jù)層、Track_3D卷積層conv1a、激活層relu1a、3D池化層pool1、3D卷積層conv2a、激活層relu2a、3D池化層pool2、3D卷積層conv3a、激活層relu3a、3D卷積層conv3b、激活層relu3b、3D池化層pool3、3D卷積層conv4a、激活層relu4a、3D卷積層conv4b、激活層relu4b、3D池化層pool4、3D卷積層conv5a、激活層relu5a、3D卷積層conv5b、激活層relu5b、3D池化層pool5、全連接層fc6、激活層relu6、drop層drop6、全連接層fc7、激活層relu7、drop層drop8、全連接層fc8以及softmax層;
步驟6,對(duì)步驟5建立的基于運(yùn)動(dòng)軌跡的3D卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)進(jìn)行訓(xùn)練,具體為:打開(kāi)訓(xùn)練樣本標(biāo)簽Labeltrain文件,按行讀取視頻路徑、視頻名稱和視頻段起始幀號(hào),在視頻名稱對(duì)應(yīng)的視頻中以起始幀號(hào)為首幀連續(xù)讀取16幀視頻段作為一個(gè)樣本,將所有的樣本依次送入到步驟5建立的基于運(yùn)動(dòng)軌跡的3D卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)中進(jìn)行訓(xùn)練,當(dāng)滿足最大迭代次數(shù)或收斂條件時(shí)結(jié)束訓(xùn)練,得到基于運(yùn)動(dòng)軌跡的3D卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)Track3DModel;
步驟二,行為識(shí)別網(wǎng)絡(luò)模型測(cè)試,具體為:讀取測(cè)試標(biāo)簽Labeltest中的視頻路徑、視頻名稱以及起始幀號(hào),將測(cè)試數(shù)據(jù)集中的視頻按照以起始幀號(hào)為第一幀的連續(xù)16幀視頻段輸入到經(jīng)過(guò)訓(xùn)練的基于運(yùn)動(dòng)軌跡的3D卷積神經(jīng)網(wǎng)絡(luò)模型中,輸出各個(gè)視頻段的行為分類信息,最后將輸出的行為分類信息與測(cè)試視頻對(duì)應(yīng)的測(cè)試標(biāo)簽Labeltest文件信息作比較,統(tǒng)計(jì)分類正確個(gè)數(shù),計(jì)算得到準(zhǔn)確率;
步驟三,若步驟二得到的準(zhǔn)確率大于等于95%,則認(rèn)為步驟一的步驟6訓(xùn)練的基于運(yùn)動(dòng)軌跡的3D卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)為最終的需求,若準(zhǔn)確率小于95%,則需要調(diào)整基于運(yùn)動(dòng)軌跡的3D卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)的內(nèi)置參數(shù),然后重復(fù)步驟一的步驟6和步驟二,直到準(zhǔn)確率滿足要求。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于西安理工大學(xué),未經(jīng)西安理工大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810748903.6/1.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專利網(wǎng)。
- 同類專利
- 專利分類
G06K 數(shù)據(jù)識(shí)別;數(shù)據(jù)表示;記錄載體;記錄載體的處理
G06K9-00 用于閱讀或識(shí)別印刷或書寫字符或者用于識(shí)別圖形,例如,指紋的方法或裝置
G06K9-03 .錯(cuò)誤的檢測(cè)或校正,例如,用重復(fù)掃描圖形的方法
G06K9-18 .應(yīng)用具有附加代碼標(biāo)記或含有代碼標(biāo)記的打印字符的,例如,由不同形狀的各個(gè)筆畫組成的,而且每個(gè)筆畫表示不同的代碼值的字符
G06K9-20 .圖像捕獲
G06K9-36 .圖像預(yù)處理,即無(wú)須判定關(guān)于圖像的同一性而進(jìn)行的圖像信息處理
G06K9-60 .圖像捕獲和多種預(yù)處理作用的組合
- 運(yùn)動(dòng)座椅運(yùn)動(dòng)控制裝置
- 田徑運(yùn)動(dòng)運(yùn)動(dòng)帶
- 運(yùn)動(dòng)解析系統(tǒng)、運(yùn)動(dòng)解析裝置、以及運(yùn)動(dòng)解析方法
- 運(yùn)動(dòng)解析裝置、運(yùn)動(dòng)解析方法、以及運(yùn)動(dòng)解析系統(tǒng)
- 運(yùn)動(dòng)解析裝置、運(yùn)動(dòng)解析系統(tǒng)以及運(yùn)動(dòng)解析方法
- 運(yùn)動(dòng)解析裝置、運(yùn)動(dòng)解析方法及運(yùn)動(dòng)解析系統(tǒng)
- 運(yùn)動(dòng)提示裝置、運(yùn)動(dòng)提示方法以及運(yùn)動(dòng)提示程序
- 運(yùn)動(dòng)提示裝置、運(yùn)動(dòng)提示方法以及運(yùn)動(dòng)提示程序
- 一種運(yùn)動(dòng)方法、運(yùn)動(dòng)設(shè)備及運(yùn)動(dòng)系統(tǒng)
- 運(yùn)動(dòng)水杯(運(yùn)動(dòng))
- 一種移動(dòng)終端出行軌跡的確定方法
- 軌跡描繪裝置和軌跡描繪方法以及軌跡描繪系統(tǒng)
- 一種軌跡數(shù)據(jù)清洗方法及裝置
- 一種移動(dòng)軌跡構(gòu)建方法及裝置
- 一種行駛軌跡的分類方法、裝置、電子設(shè)備及存儲(chǔ)介質(zhì)
- 一種多維軌跡分析方法及裝置
- 一種軌跡聚類的方法、設(shè)備及存儲(chǔ)介質(zhì)
- 軌跡數(shù)據(jù)的處理方法及裝置、電子設(shè)備
- 一種多維時(shí)空軌跡融合方法、裝置、機(jī)器可讀介質(zhì)及設(shè)備
- 一種軌跡點(diǎn)的基礎(chǔ)語(yǔ)義識(shí)別方法及相關(guān)設(shè)備
- 卷積運(yùn)算處理方法及相關(guān)產(chǎn)品
- 一種卷積神經(jīng)網(wǎng)絡(luò)的計(jì)算方法及系統(tǒng)
- 卷積運(yùn)算方法及系統(tǒng)
- 卷積運(yùn)算方法、裝置及系統(tǒng)
- 深度神經(jīng)網(wǎng)絡(luò)裁剪方法、裝置及電子設(shè)備
- 基于卷積神經(jīng)網(wǎng)絡(luò)的圖像處理方法和圖像處理裝置
- 卷積神經(jīng)網(wǎng)絡(luò)及基于卷積神經(jīng)網(wǎng)絡(luò)的圖像處理方法
- 一種圖像處理方法、裝置以及計(jì)算機(jī)存儲(chǔ)介質(zhì)
- 用于卷積神經(jīng)網(wǎng)絡(luò)的卷積運(yùn)算裝置
- 基于FPGA實(shí)現(xiàn)圖像識(shí)別的方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)





