[發(fā)明專利]一種基于YOLOv5和GME的采樣方法在審
| 申請?zhí)枺?/td> | 202210585051.X | 申請日: | 2022-05-27 |
| 公開(公告)號: | CN115063880A | 公開(公告)日: | 2022-09-16 |
| 發(fā)明(設(shè)計(jì))人: | 賈海濤;鄒新雷;任利;賈宇明;張鈺琪;胡佳麗;高源;邢增桓 | 申請(專利權(quán))人: | 成都云擎科技有限公司 |
| 主分類號: | G06V40/20 | 分類號: | G06V40/20;G06V10/82;G06T7/207;G06T7/11 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 610000 四川省成都市*** | 國省代碼: | 四川;51 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 yolov5 gme 采樣 方法 | ||
1.一種基于YOLOv5和GME的采樣方法,包括以下步驟:
步驟1.運(yùn)動矢量獲取模塊,為本專利核心內(nèi)容。YGME算法將使用幀之間的運(yùn)動矢量數(shù)據(jù)替代光流值進(jìn)行接下來的全局運(yùn)動估計(jì)與補(bǔ)償。由于視頻中的運(yùn)動矢量在視頻解壓的過程中就可以直接獲得,相較于GME,這樣做避免了大量的光流運(yùn)算(Brox光流算法在NVIDIAGPU上的處理速度為一幀0.06s,也就是約16FPS)。
步驟2.參數(shù)運(yùn)動估計(jì)模型,全局運(yùn)動的參數(shù)模型分為四種:二參數(shù)模型、四參數(shù)模型、六參數(shù)模型、八參數(shù)模型。四種不同的模型具備的全局運(yùn)動建模特性不同。
從實(shí)際應(yīng)用場景上分析,通常來說,參數(shù)的減少意味著準(zhǔn)確度的下降,但是在實(shí)際的視頻人體行為識別中,如果直接基于視頻的壓縮域運(yùn)動矢量(MPEG)來代替相鄰兩幀圖像的光流進(jìn)行全局運(yùn)動估計(jì),四參數(shù)模型就足以描述其各種運(yùn)動模式。在本發(fā)明中將使用四參數(shù)模型估計(jì)參數(shù)。坐標(biāo)系將二維圖像分為四個(gè)區(qū)域,右下、左下、左上、右上分別為IIIIIIIV象限。在I象限的像素中取一點(diǎn),其坐標(biāo)為aI=(x,y)T,x>0,y>0,該像素在另外三個(gè)像素中關(guān)于XY軸以及原點(diǎn)對稱的三點(diǎn)分別為aII=(-x,y)T,aIII=(-x,-y)T,aIV=(x,-y)T。
基于以上建模,就可以用以下方程來表示全局運(yùn)動:
公式中,aI=(x,y)T表示圖像幀中的某一像素點(diǎn),tx和ty代表了XY軸兩個(gè)方向的攝像機(jī)平移運(yùn)動變量,a1和a2代表了伸縮和旋轉(zhuǎn)的運(yùn)動變量。根據(jù)這四個(gè)參數(shù),構(gòu)筑了全局運(yùn)動估計(jì)的四參數(shù)模型,可以根據(jù)該四個(gè)參數(shù)估計(jì)攝像機(jī)全局運(yùn)動。
在XOY坐標(biāo)系中,可以用下面的公式表示隨機(jī)一點(diǎn)的運(yùn)動矢量:
MVP(ai)=f(ai|A,T)-ai=(A-I)×ai+T
首先基于視頻圖像的中心作為原點(diǎn),構(gòu)建XOY坐標(biāo)系,導(dǎo)入其全局運(yùn)動的矢量數(shù)據(jù)。
步驟3.人體區(qū)域分割模塊,為本專利的核心思想。為了消除局部運(yùn)動(主要是人體運(yùn)動)對全局運(yùn)動的錯誤估計(jì),使用行人檢測YOLO算法獲取視頻幀中的人員存在區(qū)域,留下人員存在以外的那部分區(qū)域。隨后裁去其整張運(yùn)動矢量圖中的對應(yīng)區(qū)域運(yùn)動矢量,輸入剩余區(qū)域的運(yùn)動矢量進(jìn)行參數(shù)估計(jì),估算出整張圖的全局運(yùn)動矢量。最后返還計(jì)算出的全局運(yùn)動矢量,還原出一張沒有發(fā)生全局運(yùn)動的運(yùn)動矢量圖。
全局運(yùn)動補(bǔ)償?shù)墓饺缦拢?/p>
MVP′(ai)=MVPpeople(ai)-MVPglobal(ai)
MVPpeople(ai)是人員區(qū)域運(yùn)動矢量數(shù)據(jù),為已知值,MVPglobal(ai)是全局運(yùn)動矢量,根據(jù)述四參數(shù)模型的算法,MVPglobal(ai)的計(jì)算公式如下:
MVPglobal(ai)=Aai+T
所以上式可寫為:
步驟4.整體的采樣方案在雙流SlowFast結(jié)構(gòu)上進(jìn)行性能測試。在HMDB51數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果中,51類行為數(shù)據(jù)中,有48個(gè)類別的識別率得到了提升,其中dance、ride、hit等幾類提升超過了10%,只在lie(-0.1AP)、throw(-0.2AP)、phoning(-0.4AP)三類上有極小的降低,以Top-5的評價(jià)標(biāo)準(zhǔn)來看,其識別的準(zhǔn)確率從86.2%提升到了88.3%。除此以外,算法的分類損失函數(shù)和整體損失函數(shù)比其他采樣方法的收斂速度更快。
壓縮域CGME是基于GME算法提出的為了提升全局運(yùn)動補(bǔ)償運(yùn)行速度的算法。其核心思路在于用視頻的運(yùn)動矢量,也就是MPEG光流來代替需要計(jì)算得到的Brox光流,在運(yùn)動信息的描述顯然不如Brox光流,其原因是MPEG光流以16*16的圖塊描述運(yùn)動信息,而Brox光流則是像素與像素間的運(yùn)動信息。但其運(yùn)算速度有了近百倍的提升(從6.6fps到912.3fps),但是實(shí)際運(yùn)行過程并不需要這么快的速度,故而使用一部分資源,利用目標(biāo)檢測算法YOLOv5作為輔助改善CGME算法的準(zhǔn)確率。從實(shí)驗(yàn)的結(jié)果來看,壓縮域的YGEM算法以降低一部分識別率的代價(jià)(下降約1.8%),大大提升了算法的運(yùn)行速度(從6.6fps到86.0fps),使得全局運(yùn)動補(bǔ)償在實(shí)時(shí)應(yīng)用的場景的有了實(shí)際意義。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于成都云擎科技有限公司,未經(jīng)成都云擎科技有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202210585051.X/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 基于YOLOv5和Pose-estimation的工地工人手機(jī)使用檢測方法
- 一種網(wǎng)織紅細(xì)胞識別方法和系統(tǒng)
- 一種基于改進(jìn)YOLOv5卷積神經(jīng)網(wǎng)絡(luò)的絕緣子缺陷檢測方法
- 基于YOLOV5模型的人臉識別方法
- 一種基于優(yōu)化的YOLOv5模型的車輛分類檢測方法
- 一種基于yolov5的皮膚科非處方藥售藥方法
- 一種基于改進(jìn)型yolov5網(wǎng)絡(luò)的垃圾檢測與識別方法
- 一種棉花花藥開裂狀態(tài)識別方法及系統(tǒng)
- 基于改進(jìn)YOLOv5算法的新材料地板缺陷目標(biāo)檢測系統(tǒng)
- 基于改進(jìn)Yolov5的車載移動端目標(biāo)檢測方法





