[發明專利]一種復雜通信條件下的圖像壓縮恢復方法在審
| 申請號: | 202310030642.5 | 申請日: | 2023-01-10 |
| 公開(公告)號: | CN116055460A | 公開(公告)日: | 2023-05-02 |
| 發明(設計)人: | 田瀟;張晴晴;田鑫馳 | 申請(專利權)人: | 上海菁數信息技術有限公司 |
| 主分類號: | H04L65/60 | 分類號: | H04L65/60;G06T7/00;G06V10/764;G06T5/00;G06N3/08;G06N3/0464;H04L69/04 |
| 代理公司: | 北京共騰律師事務所 16031 | 代理人: | 李保民 |
| 地址: | 202150 上海市崇明區長興鎮潘園東*** | 國省代碼: | 上海;31 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 復雜 通信 條件下 圖像 壓縮 恢復 方法 | ||
1.一種復雜通信條件下的圖像壓縮恢復方法,其特征在于:包括以下步驟:
S1.對礦井場景進行識別和人物目標檢測,其中包括亮度和場景各不相同的礦井場景圖和不同服飾裝備的礦工人物圖像,礦井場景圖像和礦工人物圖像分別用于礦井場景識別和礦工目標檢測任務,場景識別任務采用一種輕量型卷積神經網絡,MobileNet將普通卷積分解為深度可分離卷積和點卷積,在保持模型準確率的同時使得模型參數量和計算復雜度都有了較大程度的下降,被廣泛應用在移動端設備中;目標檢測算法采用one-stage的YOLOv5模型,在救援任務中檢測速度也是極為重要的指標,YOLOv5可以很好地部署在移動端,同時保持較高的精度和較快的檢測速度,根據不同程度的通訊條件可以選擇在設備中部署不同規模的YOLOv5模型;至此完成了基本的場景識別和人員檢測人物,獲取到了被困人員的大致姿勢和體態信息;
S2.對檢測到的圖像進行預處理,獲取到被困人員的檢測圖像后,受限于當前場景復雜的通訊傳輸條件,需要對檢測到的圖像進行預處理,該操作主要包括圖像灰度化處理和圖像邊緣檢測,灰度化相較于彩色圖像灰度圖像占內存更小,運行速度更快;灰度圖像后可以在視覺上增加對比,突出目標區域,而該場景下的突出目標區域為被困人員的人物與關鍵點檢測框,故圖像灰度化對于該任務來說是必要的,一般來說圖像灰度化處理有三種常用方法:最大值法、平均值法和加權平均值法;
(1)最大值法:最大值法,即直接取R,B,G三個分量中數值最大的分量的數值(0視為最小,255視為最大),公式為:
Gray(i,j)=max{R(i,j),G(i,j),B(i,j)}
(2)平均值法:平均值法,即取R,B,G三個分量中數值的均值,公式為:
Gray(i,j)=(R(i,j)+G(i,j)+B(i,j))/3
(3)加權平均值法:根據重要性及其它指標,將三個分量以不同的權值進行加權平均,由于人眼對綠色的敏感最高,對藍色敏感最低,因此,按下式對RGB三分量進行加權平均能得到較合理的灰度圖像:
Gray(i,j)=0.299×R(i,j)+0.578×G(i,j)+0.114×B(i,j)
以上三種處理方法分別用于不同的場景中,一般選擇平均值法或加權平均值法來處理圖像,這樣做的好處是能夠過濾掉圖像的部分噪聲,抑制噪聲對邊緣檢測結果影響,圖像的邊緣檢測是圖像灰度化處理后的一個步驟,使用邊緣化檢測可以以較小的計算量快速檢測出被困人員的身體邊緣輪廓,因為礦井下光線等條件較弱,檢測出的圖像擁有較大的噪聲,故邊緣檢測采用抗噪聲能力強的Sobel算子;Sobel算子結合了高斯模糊和一階微分并計算圖像明暗程度的近似值,通過比較圖像邊緣的明暗程度把該區域內超過閾值的特定像素點記為邊緣點,該算法在傳統算法的基礎上增加了距離權重的概念,處于臨域但不同距離的像素點對當前像素點造成的變化也是不同的:距離越近的像素點對于當前的像素點的影響越大,從而該算法實現了對距離進行加權,完成了對圖像的銳化并突出了圖像的邊緣輪廓,在實際應用中Sobel常用如下兩個濾波算子來檢測圖像邊緣:
其中Sx為水平部分濾波算子,Sy為垂直部分濾波算子;
圖像的每一個像素的梯度值結合了水平部分和垂直部分的梯度估計值,并且可以用以下的公式來計算梯度的大小S和梯度的方向θ:
Sobel算子通過結合了高斯模糊和一階微分這兩種模型使邊緣檢測的結果具有較高的抗噪聲干擾的能力,至此,圖像在占有內存更小的前提下保留了原有的絕大部分檢測信息,做好了圖像的預處理為后續圖像壓縮進行鋪墊;
S3.對與處理后的圖像進行壓縮,將預處理過后的圖像進行有損壓縮,該部分采用一種用于低碼率圖像壓縮的端到圖像壓縮框架tucodecTNG,該框架基于變分自編碼器,其中包括一個非線性編碼器變換、均勻量化器、非線性解碼器變換和一個基卷積的高效后處理模塊,該模型架構中的↑表示上采樣,↓表示下采樣;conv表示卷積操作,GDN表示在自編碼模塊中使用了Generalized?Divisive?Normalization進行歸一化處理;AE和AD分別代表算數編碼器和算數解碼器,Quantize為高效后處理模塊,可以去除部分低碼率圖像的壓縮失真和模糊,tucodecTNG的算法步驟為:
(1)自編碼器將圖像像素x轉換為編碼空間y中的數據,其中編碼空間由編碼器fe和解碼器fd構成,圖像的像素值x∈RN通過編碼器y=fe(x)轉換到編碼空間;
(2)之后,利用量化函數Q(y)處理表征y,得到離散向量在圖像壓縮任務中表征的先驗概率模型(也稱熵模型)對于算數編碼是極其關鍵的。tucodecTNG中認為自然圖像的梯度遵循拉普拉斯分布,故將每個特征的先驗概率模型初始化為均值為0,方差為σi2的拉普拉斯分布,
其中是超先驗的解碼器,σi被作為超先驗,以捕捉元素之間的空間元素之間的空間依賴性,也是由一個自動編碼器完成的;
(3)壓縮后的表征被送入先驗編碼器,將標準偏差分布處理為z=he(y)中的標準偏差,然后,z被量化為Q(z)壓縮并作為局部信息進行傳輸,解碼器估計參數而σ被用來形成拉普拉斯方程來形成用于速率估計的拉普拉斯分布并使用熵編碼來壓縮量化表征
(4)在使用上述編碼方法來壓縮并生成用于傳輸的碼流,在接收到碼流后經過熵解碼的量化后的表征使用解碼器被轉換回圖像空間
至此,將礦井下檢測到的圖像經過低碼率的壓縮后,可以應對復雜網絡通信條件下信息的傳輸問題;
S4.根據圖像不同壓縮程度進行相應的圖像恢復,檢測到的圖像經過tucodecTNG模型壓縮后傳輸回地面設備端,需要對其進行相應的恢復處理以獲取完整的被困人員信息,圖像的恢復操作主要針對礦井場景下因光線等原因產生的噪聲和圖像壓縮后出現的噪聲處理,深度卷積神經網絡有著出色的降噪能力,但在現實世界中的噪點圖像上仍然表現不佳,為了應對礦井下更加昏暗的場景和光線服飾設備產生的復雜噪聲,本發明應用一種金字塔真實圖像降噪網絡(PRIDNet),模型分為三個階段,首先,噪聲估計階段使用通道注意機制來重新校準輸入噪聲的通道重要性,其中通道注意力機制用于提取噪聲的特征,可自適應地校準每個特征通道的重要性,其次,在多尺度降噪階段利用金字塔結構提取多尺度特征,金字塔結構的每個分支都各自關注一個尺度的通道特征,得益于此模型擁有可以同時提取全局信息和保留局部細節的能力,從而為后續的全面去噪做好準備,最后,特征融合階段采用卷積核選擇運算模塊來自適應融合多尺度特征,在多尺度特征,每個通道代表一個不同的尺度特征,核選擇運算模塊通過線性組合融合具有不同卷積核大小的多個分支,從而允許通過大小不同的卷積核來表達不同的輸出特征圖,輸入的噪聲圖像依次經過上述三個階段的處理,可以處理任意輸入大小的圖像,為了避免特征損失,在進入下一個階段前使用殘差連接將上一級的輸出與本階段的輸入連接起來一起送入下一個階段進行特征建模:
(1)噪聲估計階段,噪聲估計階段著重于從輸入噪聲圖像中提取判別特征,也可以看作是對圖像中噪聲水平的估計,該模塊由全局平均池化層和五層標準卷積操作組成,每個卷積后加入激活函數ReLU,且每個卷積層的卷積核大小設置為3×3,輸出通道數設置為32(最后一層設置為1或3),在噪聲估計階段的最后一層前插入了通道注意力模塊,以明確校準特征通道之間的權重相互依賴性,各個通道的權重集合μ=[μ1,μ2,...,μc]∈R1×1×C用于縮放輸入特征圖像U∈RH×W×C以生成初重新校準的特征,首先使用全局平均池化層(GlobalAverage?Pooling,GAP)將輸入特征圖U的全局信息壓縮到通道描述符v∈R1×1×C中,緊接著使用兩個全連接層(Fully?connected?Layers,FC)調整輸出通道數,其中隱層的通道數設置為2,各個通道的權重校準尺度可以表示為:
μ=Sigmoid(FC2(ReLU(FC1(GAP(U)))))
最終通道注意力模塊的最終輸出(表示為U′∈RH×W×C)是通過計算得到的;
(2)多尺度降噪階段,金字塔結構的概念廣泛應用于圖像壓縮和場景解析等領域,為了減輕傳統卷積神經網絡在提取特征時全局信息沒有完全整合的問題,PRIDNet加入了一種全新的多尺度降噪階段,具體來說,該階段為一個五層的金字塔結構,分別通過五種并行方式,將輸入特征圖下采樣為不同大小,從而幫助分支獲得相對比例不同的特征感受野以同時捕獲原始,局部和全局信息,五層結構的卷積核大小分別設置為1×1、2×2、4×4、8×8和16×16,然后,分別將五種不同大小卷積核提取道德特征信息進行融合,研究表明,連續的上采樣和下采樣有助于對任務進行降噪,而這五個卷積層不進行權重的共享,對得到的特征圖進行獨立地建模,在該階段的最后,通過雙線性插值將多級去噪特征上采樣到相同的大小,然后將它們連接在一起;
(3)特征融合階段,為了在多尺度特征結果中為每一個輸出通道選擇不同大小的卷積核,PRIDNet引入了卷積核選擇運算模塊,卷積核選擇模塊的詳細信息如圖5所示,具體來說:給定的特征圖U∈RH×W×C由卷積核大小分別為3、5和7的三個卷積進行并計算,得到U′∈RH×W×C、U″∈RH×W×C和U″′∈RH×W×C,通過對應元素求和整合來自所有分支的信息:
而后將的輸出通道數調整至與輸入U通道數相同,之后通過GAP和兩個全連接層進行擴展,其操作與通道注意力模塊中的操作相同,最后不進行Sigmoid處理,FC2的三個輸出α′∈R1×1×C、β′∈R1×1×C和γ′∈R1×1×C分別進行Softmax處理后被應用在三個不同分支:
其中α,β,γ分別表示U′,U″,U″′的通道注意力權重,特別的,αc是α的第c個元素,βc和γc同理,最終輸出特征圖V是通過大小不同的卷積核及其注意力權重相結合計算得到的:
Vc=αc·U′+βc·U″+γc·U″′
其中α,β,γ需滿足αc+βc+γc=1,且V=[V1,V2,...,Vc],Vc∈RH×W,之后使用一個1×1的卷積層調整輸出通道數以進行特征融合;
至此,完成了壓縮圖像的恢復任務,救援人員可獲取到被困人員詳細的實時信息,根據當前場景的不同狀況來制定合適的營救策略。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于上海菁數信息技術有限公司,未經上海菁數信息技術有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202310030642.5/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種端景吊筋柜
- 下一篇:一種方片晶粒質量檢測方法及系統
- 彩色圖像和單色圖像的圖像處理
- 圖像編碼/圖像解碼方法以及圖像編碼/圖像解碼裝置
- 圖像處理裝置、圖像形成裝置、圖像讀取裝置、圖像處理方法
- 圖像解密方法、圖像加密方法、圖像解密裝置、圖像加密裝置、圖像解密程序以及圖像加密程序
- 圖像解密方法、圖像加密方法、圖像解密裝置、圖像加密裝置、圖像解密程序以及圖像加密程序
- 圖像編碼方法、圖像解碼方法、圖像編碼裝置、圖像解碼裝置、圖像編碼程序以及圖像解碼程序
- 圖像編碼方法、圖像解碼方法、圖像編碼裝置、圖像解碼裝置、圖像編碼程序、以及圖像解碼程序
- 圖像形成設備、圖像形成系統和圖像形成方法
- 圖像編碼裝置、圖像編碼方法、圖像編碼程序、圖像解碼裝置、圖像解碼方法及圖像解碼程序
- 圖像編碼裝置、圖像編碼方法、圖像編碼程序、圖像解碼裝置、圖像解碼方法及圖像解碼程序





