[發明專利]一種基于深度學習的視覺多任務處理方法在審
| 申請號: | 202211515937.3 | 申請日: | 2022-11-30 |
| 公開(公告)號: | CN115909245A | 公開(公告)日: | 2023-04-04 |
| 發明(設計)人: | 祝裕昌;肖南峰 | 申請(專利權)人: | 華南理工大學 |
| 主分類號: | G06V20/56 | 分類號: | G06V20/56;G06V10/82;G06N3/0464;G06N3/08 |
| 代理公司: | 廣州市華學知識產權代理有限公司 44245 | 代理人: | 馮炳輝 |
| 地址: | 510640 廣*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 深度 學習 視覺 任務 處理 方法 | ||
1.一種基于深度學習的視覺多任務處理方法,其特征在于,該方法是利用一個基于深度學習的視覺多任務處理神經網絡模型同時完成車輛自動駕駛中需要的多任務視覺處理,包括目標檢測任務、可行駛區域檢測任務和車道線檢測任務,其中,該視覺多任務處理神經網絡模型由輸入層、共享特征編碼器、瓶頸模塊和三個針對不同任務的解碼器組成,解碼器之間與相似的任務共享特征映射,實現聯合語義理解,并且用于目標檢測任務的解碼器使用CIoU衡量損失值;
該視覺多任務處理方法的具體實施包括以下步驟:
S1、獲取數據集并進行預處理,包括:對數據集進行縮放操作以滿足視覺多任務處理神經網絡模型的輸入要求,對數據集進行增強操作,對數據集進行風格轉換以更好地模擬實際惡劣駕駛天氣環境;將預處理后的數據集劃分為訓練集和測試集;
S2、調整訓練參數,構建數據集生成器,分步驟訓練視覺多任務神經網絡模型:先訓練視覺多任務神經網絡模型的共享編碼器,再分別訓練視覺多任務神經網絡模型三個針對不同任務的解碼器;
S3、采集測試集中的RGB圖像數據,輸入到訓練好的視覺多任務神經網絡模型中預測,得到目標檢測預測結果、可行駛區域預測結果和車道線預測結果,并將所有預測結果繪制到測試的RGB圖像展示輸出。
2.根據權利要求1所述的一種基于深度學習的視覺多任務處理方法,其特征在于,在步驟S1中,使用BDD100K數據集,BDD100K數據集的原始RGB圖像格式為jpg格式,分辨率為1280×720,目標檢測的標簽格式是json格式,在訓練過程中需要將json格式的標簽轉換成{x,y,w,h,class},(x,y)代表邊界框的坐標,(w,h)代表邊界框的寬度和高度,class代表目標的類別;BDD100K數據集中的可行駛區域標簽和車道線標簽是png格式,分辨率為1280×720,需要將可行駛區域標簽和車道線標簽尺寸轉換成視覺多任務神經網絡模型對應可行駛區域檢測任務和車道線檢測任務的兩個解碼器輸出的尺寸大小;對BDD100K數據集進行色彩變換增強操作,使用直方圖均衡算法,計算圖像的灰度直方圖,求圖像像素總數,歸一化直方圖分布,計算圖像的灰度級累計分,求出增強圖像的灰度值,得到一個經過直方圖均衡化的圖像;對數據集進行場景變換操作,使用CycleGAN算法進行場景轉換,CycleGAN是一種風格轉換神經網絡,使用CycleGAN將BDD100K數據集進行天氣轉換,包括晴天轉雷雨天,晴天轉雪天、晴天轉霧霾天氣和晴天轉雨天的惡劣天氣,擴充自動駕駛數據集的數量,并且使得視覺多任務處理神經網絡模型學習更多惡劣環境的數據圖像,使得模型更加具有泛化性能。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于華南理工大學,未經華南理工大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202211515937.3/1.html,轉載請聲明來源鉆瓜專利網。





