[發明專利]一種輕量化識別視頻人體姿態的方法在審
| 申請號: | 202110987258.5 | 申請日: | 2021-08-26 |
| 公開(公告)號: | CN113743269A | 公開(公告)日: | 2021-12-03 |
| 發明(設計)人: | 張燁;陳威慧;王博;閆芳彭 | 申請(專利權)人: | 浙江工業大學 |
| 主分類號: | G06K9/00 | 分類號: | G06K9/00;G06K9/46;G06K9/62;G06N3/04;G06N3/08 |
| 代理公司: | 杭州天正專利事務所有限公司 33201 | 代理人: | 王兵 |
| 地址: | 310014 浙*** | 國省代碼: | 浙江;33 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 量化 識別 視頻 人體 姿態 方法 | ||
1.一種輕量化識別視頻人體姿態的方法,包括如下步驟:
步驟一,視頻樣本預處理;
將獲取到的實時監控視頻或現有視頻序列利用OpenCV進行視頻幀化處理,即把將視頻轉化為一幀幀的RGB圖像;然后對RGB視頻幀進行圖像增強、去噪等預處理,同時通過視頻幀序列計算光流序列,進而提取光流特征圖像;具體包括:
(1)RGB視頻幀圖像預處理;
對于RGB視頻幀圖像的預處理,首先對其進行圖像增強;具體有:先將圖像劃分為N個大小相等且互不重疊的圖像子塊;其次,對于每個子塊,將它的像素個數均勻分配到它的各個灰度級中,由此可得每個灰度級所分配到的平均像素個數,進一步得到對比度閾值T;再次,利用對比度閾值T對每個圖像子塊的灰度直方圖(即局部直方圖)進行裁剪,然后將裁剪部分的像素個數均勻分配到各個灰度級,得到各個灰度級平均分配到的像素個數;然后,反復進行像素裁剪和均勻分配,直至各個灰度級的像素個數均小于閾值;緊接著對重新分配像素后的每個圖像子塊進行直方圖均衡化處理;在對圖像子塊完成直方圖均衡化后,若僅僅利用映射函數進行變換得到每個子塊像素點的值,則不僅會導致算法耗時嚴重,還會讓互不重疊的圖像子塊在圖像重構時產生塊效應;為了提高圖像的質量,加快圖像的處理速度,最后利用雙線性插值算法計算像素點的值;經過圖像增強后,圖像的亮度和對比度都會得到較理想的改善,直方圖的灰度分布也會變得更加均衡;
隨后,利用引導濾波對經過圖像增強的視頻幀圖像樣本進行去噪;引導濾波是一種以較低運算耗時去除噪聲、保持邊緣的濾波方法;與其他濾波方法相比,它有著更強的適應性和更優的濾波性能;
(2)提取光流特征圖像;
假設視頻幀圖像梯度恒定且局部光流恒定,提取光流特征圖像的步驟主要有:
S1:圖像的近似建模;
使用一個二次多項式來近似表示一個二維的灰色圖像;因為圖像一般是二維的,那么圖像像素點(x,y)的灰度值可以看成是一個二維變量函數f(x,y),若以感興趣的像素點為中心構建一個局部坐標系(并不是針對整張圖像),那么對該函數進行二項展開,可以近似為:
f(x,y)≈a1+a2x+a3y+a4xy+a5x2+a6y2
其中,x為二維列向量;A為2×2的對稱矩陣;B為2×1的矩陣;C為常量;
然后以該像素點為中心,設定一個方形鄰域(2n+1)×(2n+1),把鄰域內的共(2n+1)2個像素點作為樣本點,通過計算這些樣本點的值和坐標來進行中心像素點的六維系數的估計,估計的方法常使用加權最小二乘法,其中加權是因為在鄰域內,距離中心越近的像素點與中心像素具有越大的相關性,而距離越遠的點提供的信息則越少,因此可以將鄰域以外的像素點的權重都視為0;此處的系數是針對像素點(x,y)而確定的,對于其他像素點可能并不適用,即對于圖像中的每個像素點,都有一個六維向量;
S2:位移估計;
首先通過全局位移來構造一個新的信號,假設某一個像素點M的原始位置為f1(x),即有:
則像素點M在鄰域范圍內移動d后,有:
其中,A2=A1,B2=B1-2A1d,
然后通過假定二次多項式中的系數相等來計算整體的位移;假設式(3)中的A1為非奇異矩陣,則可得到圖形的全局位移d值為:
按照理論推導,其中必定有A2=A1,但實際情況中未必能滿足這一項要求,因此可以用均值來近似真實值,若令:
則有:
Ad=ΔB (7)
d=(ATA)-1(ATΔB) (8)
在計算過程中,可以利用一個先驗位移值來縮減迭代次數,因為適當的先驗位移值意味著更小的相對位移,從而可以得到更加精準的圖像幀間的位移估計,進而在迭代位移估計的過程中獲得視頻圖像幀之間的最優位移值;
S3:生成光流特征圖;
利用HSV顏色模型將光流場轉換為光流圖像;因為經步驟S1和步驟S2提取到的只是一個光流場,該光流場只是一個二維向量場,需要將其轉換為光流特征圖才能輸入網絡中進行特征提取;
步驟二,構建LHN模型;
通過構建輕量級的LHN模型來實現RGB視頻幀的特征提取,該模型由四階LH Block組建而成;其中,一階的LH Block由兩個支路組成,在上支路中,輸入依次經過三個輕量級的殘差模塊,并保留輸入圖像當前尺度的特征信息;在下支路中,輸入會先經過一層最大池化層進行下采樣操作,然后依次經過三個輕量級的殘差模塊,在獲取了輸入圖像的當前尺度的特征后,利用最近鄰插值法進行一次上采樣操作獲取原始分辨率圖像;因上支路不會改變圖像的分辨率,所以接著將上支路提取的特征圖和下支路提取的特征圖進行相加操作,最終得到圖像在兩種尺度下的特征信息;四階LH Block均由一階LH Block拼接而成,即都是先分為上支路和下支路,上支路先依次經過三個輕量級的殘差模塊,保留輸入圖像當前尺度的特征信息;下支路則要先經過一個最大池化下采樣操作,降低圖像的分辨率,接著依次經過三個輕量級的殘差模塊提取圖像特征,然后與前一階的LH Block進行拼接,最后經過一次上采樣操作與上支路獲取的圖像特征圖進行相加操作,以融合圖像的多個分辨率的特征,進而進行輕量、有效的人體姿態估計;其中,對殘差模塊的輕量級設計主要包括:將殘差模塊中的普通卷積方式更改為深度可分離卷積,同時融入通道分離重組,由此減少模型的參數量、計算量,同時減少傳輸時的通道數,以保證各部分的圖像特征均能有效地傳輸到模型的后端,提高各特征之間的相關性,以保證人體姿態的準確估計;
步驟三,訓練LHN模型;
為了避免網絡從頭開始訓練帶來的耗時長以及過擬合帶來的弊端,利用ImageNet數據集對LHN網絡做預訓練,然后對此獲取的權重以預處理后的RGB視頻幀為輸入進行遷移學習的訓練;
步驟四,設計LRDN模型;
通過設計LRDN模型以實現輕量化地完成光流圖特征提取,該模型由三部分組成:淺層特征提取模塊、深層特征提取模塊以及圖像分類模塊;
首先,利用1層標準卷積和1層改進的深度可分離卷積提取輸入圖像的淺層特征;其中,對傳統深度可分離卷積操作的改進有:第一,在深度卷積前增加一層1×1卷積的“擴張”層,目的是為了提升通道數,獲得更多特征;第二,最后不采用ReLU激活函數,而是直接線性輸出,目的是防止ReLU破壞特征;
然后,將淺層特征作為深度特征提取模塊的輸入,利用LRDB中的局部密集連接、特征復用、下采樣操作與殘差融合結構獲取圖像的各項細節特征;對于LRDN模型,深層特征提取模塊是其核心部分,而深層特征提取模塊主要是由LRDB組成;LRDB通常包含一個密集連接塊、一個下采樣過渡塊以及一個帶池化操作的恒等連接;其中,LRDN中的密集塊由24層卷積層密集連接而成,且每一層的非線性組合函數為BN+ReLU+1×1Conv+BN+ReLU+3×3Conv的組合;其中,1×1Conv在這里的作用是固定輸出通道數,將輸出的特征圖個數降低為4k,達到降維的目的,從而提升計算效率;當網絡中的十幾個1×1Conv+3×3Conv的復合卷積相連接時,串聯后的特征通道數會增加到上千,如果不增加1×1Conv來降維,那么后續3×3Conv所需的參數量會急劇增加;此外,因LRDB中包含有殘差連接,故在密集塊中采用了預激活設計,即激活函數在前、卷積層在后的BN-ReLU-Conv的順序;而對于模型中的最后一個LRDB,通常直接利用1×1Conv對該密集塊的輸出特征進行壓縮、整理,然后在倒數第二個LRDB輸出的深層特征與壓縮后的特征之間加入殘差連接,獲取最終的深層特征;
最后,利用全局平均池化聚合特征圖,由全連接層、softmax層作為特征分類器,對輸入的圖像進行分類,并獲取分類的概率;
步驟五,訓練LRDN模型;
對于LRDN模型的訓練,由于光流視頻不能直接作為網絡的輸入,同時也為了提高網絡的分類識別準確率,因此以空間LRDN網絡前向傳播選擇的RGB視頻幀為基準,抽取每幀RGB視頻幀所對應的前4張、后5張以及本身共10張光流圖組合成堆疊的光流特征圖像輸入到網絡中,以進行LRDN網絡的前向傳播運算,迭代訓練,以保證LRDN網絡的魯棒性;
步驟六,搭建并聯式異構卷積神經網絡;
將步驟二中構建的LHN模型與步驟四中設計的LRDN模型以并聯的方式進行拼接,進而構建雙流異構卷積神經網絡,因雙流網絡均為深度卷積網絡,最后將兩個網絡的softmax概率利用以堆疊的L2標準化的softmax分數作為特征的多類別線性SVM進行融合,最終選擇最大概率值所對應的姿態類別為模型當前輸入的視頻幀序列所屬的人體姿態類別。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于浙江工業大學,未經浙江工業大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110987258.5/1.html,轉載請聲明來源鉆瓜專利網。





