[發(fā)明專利]一種用于交通道路場景的圖像語義分割模型訓練方法在審
| 申請?zhí)枺?/td> | 202210103540.7 | 申請日: | 2022-01-28 |
| 公開(公告)號: | CN114419058A | 公開(公告)日: | 2022-04-29 |
| 發(fā)明(設計)人: | 張帆;曹松;任必為;宋君;陶海 | 申請(專利權)人: | 北京文安智能技術股份有限公司 |
| 主分類號: | G06T7/10 | 分類號: | G06T7/10;G06N3/04;G06N3/08;G06T5/50 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 100094 北京市海*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 用于 交通 道路 場景 圖像 語義 分割 模型 訓練 方法 | ||
本發(fā)明提供了一種用于交通道路場景的圖像語義分割模型訓練方法,包括:構造語義分割基礎模型,調(diào)整基礎網(wǎng)絡的結構以形成語義分割初始模型,利用交通道路場景的樣本圖像訓練集訓練語義分割初始模型,以獲得圖像語義分割模型。本發(fā)明解決了現(xiàn)有技術中的因圖像語義分割模型的上采樣模塊的上采樣算子使用最鄰近插值模式計算;而導致圖像語義分割模型的經(jīng)上采樣模塊輸出后的特征圖比較于原始的輸入圖像損失大量的像素信息,影響了圖像語義分割模型的語義分割性能,造成最終的圖像語義分割結果的精確性差的問題。
技術領域
本發(fā)明涉及計算機視覺圖像處理技術領域,具體而言,涉及一種用于交通道路場景的圖像語義分割模型訓練方法。
背景技術
圖像語義分割是計算機視覺領域的核心研究問題之一,圖像語義分割的目標是對輸入圖像的每個像素分配標簽,即實現(xiàn)像素級別的物體分類任務,主通過圖像語義分割模型對輸入圖像的像素進行預測并分類,生成語義標簽,最終將圖像分割為若干個具有某種特定語義含義的像素區(qū)域。
在交通道路場景中,圖像語義分割技術的應用廣泛,圖像語義分割技術通過對可行駛區(qū)域、行人、車輛等目標進行精準分析區(qū)分,為交通道路場景下的信息感知提供了可能。現(xiàn)有技術中,為了確保圖像語義分割模型與交通道路場景分析平臺之間具有良好的部署適配性,圖像語義分割模型的上采樣模塊通常使用最鄰近插值模式計算;但是這種屬于早期的算子計算方式會導致圖像語義分割模型經(jīng)上采樣模塊輸出后的特征圖比較于原始的輸入圖像損失了大量的像素信息,進而會降低圖像語義分割模型的語義分割性能,造成最終的圖像語義分割結果的精確性很差。
發(fā)明內(nèi)容
本發(fā)明的主要目的在于提供一種用于交通道路場景的圖像語義分割模型訓練方法,以解決現(xiàn)有技術中的因圖像語義分割模型的上采樣模塊的上采樣算子使用最鄰近插值模式計算;而導致圖像語義分割模型的經(jīng)上采樣模塊輸出后的特征圖比較于原始的輸入圖像損失大量的像素信息,影響了圖像語義分割模型的語義分割性能,造成最終的圖像語義分割結果的精確性差的問題。
為了實現(xiàn)上述目的,本發(fā)明提供了一種用于交通道路場景的圖像語義分割模型訓練方法,包括:步驟S1,構造基礎網(wǎng)絡為DeepLabV3plus網(wǎng)絡和ResnetX網(wǎng)絡組合的語義分割基礎模型,其中,DeepLabV3plus網(wǎng)絡的上采樣算子使用最鄰近插值模式計算;步驟S2,調(diào)整基礎網(wǎng)絡的結構以形成語義分割初始模型,其中,調(diào)整過程為:復制DeepLabV3plus網(wǎng)絡的卷積模塊至DeepLabV3plus網(wǎng)絡的底部作為底層卷積模塊,將基礎網(wǎng)絡的輸入端通過卷積層組后通過跳躍連接的方式與DeepLabV3plus網(wǎng)絡的輸出端合并,將合并端作為底層卷積模塊的輸入端,底層卷積模塊的輸出為最終語義分割結果;步驟S3,利用交通道路場景的樣本圖像訓練集訓練語義分割初始模型,以獲得圖像語義分割模型。
進一步地,卷積層組包括一層或多層卷積層,各卷積層的卷積核尺寸為3×3,卷積步長為1,填充值為0或1。
進一步地,卷積層組包括多層卷積層,多層卷積層的數(shù)量大于1層且小于等于3層。
進一步地,填充值包括填充寬度值和填充高度值。
進一步地,DeepLabV3plus網(wǎng)絡的卷積模塊和底層卷積模塊的結構自上而下包括:卷積層、BN層、Relu層和卷積層。
進一步地,樣本圖像訓練集包括第一訓練集和第二訓練集,第一訓練集中的訓練圖像選自奧迪大型自動駕駛數(shù)據(jù)集A2D2中的前部車載取像設備沿道路方向的拍攝的正視交通道路場景圖像和后部車載取像設備沿道路方向的拍攝的正視交通道路場景圖像;第二訓練集中的訓練圖像為高速道路場景圖像。
進一步地,步驟S3包括:步驟S31,使用第一訓練集預訓練語義分割初始模型,以獲得語義分割預訓練模型;步驟S32,調(diào)整模型訓練的學習率,使用第二訓練集繼續(xù)訓練語義分割預訓練模型,以獲得圖像語義分割模型。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京文安智能技術股份有限公司,未經(jīng)北京文安智能技術股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業(yè)授權和技術合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202210103540.7/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。





