[發(fā)明專利]密集場景下的圖像檢測方法、裝置、終端及介質(zhì)在審
| 申請?zhí)枺?/td> | 202211191944.2 | 申請日: | 2022-09-28 |
| 公開(公告)號: | CN115564949A | 公開(公告)日: | 2023-01-03 |
| 發(fā)明(設計)人: | 陶大鵬;王林飛;林旭 | 申請(專利權(quán))人: | 云南聯(lián)合視覺科技有限公司 |
| 主分類號: | G06V10/25 | 分類號: | G06V10/25;G06V10/774;G06V10/82 |
| 代理公司: | 深圳中一聯(lián)合知識產(chǎn)權(quán)代理有限公司 44414 | 代理人: | 丁月蓉 |
| 地址: | 650000 云南省昆明市呈貢*** | 國省代碼: | 云南;53 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 密集 場景 圖像 檢測 方法 裝置 終端 介質(zhì) | ||
本申請適用于圖像檢測技術(shù)領(lǐng)域,提供一種密集場景下的圖像檢測方法、裝置、終端及介質(zhì),其中方法包括:基于圖像檢測模型對樣本圖像進行識別,得到輸出的預測框,所述預測框?qū)鰳颖緢D像中目標對象的預測區(qū)域;基于所述預測框與真實框之間的交疊關(guān)系,確定所述預測框中目標區(qū)域面積在所述預測框中的目標占比;基于所述目標占比,及所述預測框與所述真實框之間的面積交并比,確定目標損失函數(shù);基于所述目標損失函數(shù),對所述圖像檢測模型進行模型迭代訓練,并基于迭代訓練完成的所述圖像檢測模型進行圖像檢測。該方案能夠提升密集圖像中的目標檢測精度。
技術(shù)領(lǐng)域
本申請屬于計算機視覺技術(shù)領(lǐng)域,尤其涉及一種密集場景下的圖像檢測方法、裝置、終端及介質(zhì)。
背景技術(shù)
密集目標檢測是一項在智慧服務、智慧農(nóng)業(yè)、智慧交通以及智慧旅游等多個領(lǐng)域都有應用價值的計算機視覺任務,可應用于超市貨架智能管理、農(nóng)作物產(chǎn)量預測、城市交通流量估計、景區(qū)密集人群檢測等場景。
與自然場景中感興趣目標在圖像里稀疏分布不同,密集目標檢測任務往往面臨著三個挑戰(zhàn):
1)海量擁擠的小尺寸目標。以典型的密集目標檢測數(shù)據(jù)集SKU-110K為例,圖像中感興趣目標的平均數(shù)量為147.4個,單張圖像包含的目標數(shù)量最大達到了718個。相比而言Pascal VOC 2012數(shù)據(jù)集和MS COCO 2018數(shù)據(jù)集中的每張圖像平均包含感興趣目標數(shù)量僅為2.3和7.7個。
2)預測框?qū)吔缡置舾小K械母信d趣目標都聚集在一起,相鄰目標之間幾乎沒有像素間隔。一旦網(wǎng)絡預測邊界框的尺寸過大,邊界上屬于其他目標的像素將會被混淆進來。
3)目標特征不顯著。由于單張圖像中包含上百個感興趣目標,導致卷積神經(jīng)網(wǎng)絡下采樣時對這些大量的小尺寸目標不敏感。
上述原因,導致在密集場景下的圖像檢測結(jié)果中,相鄰的預測邊界框不夠緊致,大量的候選框往往很大比例的互相重疊在一起,容易包含到混淆區(qū)域。
且更進一步導致,在對候選框進行置信度判別時,一些被周圍邊界框影響的最優(yōu)候選框被直接丟棄,部分次優(yōu)候選框因為預測置信度相對較高而被網(wǎng)絡留下當作最終結(jié)果,嚴重影響密集圖像中的目標檢測精度。
發(fā)明內(nèi)容
本申請實施例提供了一種密集場景下的圖像檢測方法、裝置、終端及介質(zhì),以解決密集場景下的圖像檢測結(jié)果中,相鄰的預測邊界框不夠緊致,大量的候選框往往很大比例的互相重疊在一起,容易包含到混淆區(qū)域,嚴重影響密集圖像中的目標檢測精度的問題。
本申請實施例的第一方面提供了一種密集場景下的圖像檢測方法,包括:
基于圖像檢測模型對樣本圖像進行識別,得到輸出的預測框,所述預測框?qū)鰳颖緢D像中目標對象的預測區(qū)域;
基于所述預測框與真實框之間的交疊關(guān)系,確定所述預測框中目標區(qū)域面積在所述預測框中的目標占比;其中,所述目標占比包括所述預測框落入所述真實框中的第一面積在所述預測框中的第一占比,或者,所述目標占比包括所述預測框落入所述真實框中的第一面積在所述預測框中的第一占比及所述預測框未落入所述真實框中的第二面積在所述預測框中的第二占比,所述真實框?qū)鰳颖緢D像中所述目標對象的標注區(qū)域;
基于所述目標占比,及所述預測框與所述真實框之間的面積交并比,確定目標損失函數(shù);
基于所述目標損失函數(shù),對所述圖像檢測模型進行模型迭代訓練,并基于迭代訓練完成的所述圖像檢測模型進行圖像檢測。
本申請實施例的第二方面提供了一種密集場景下的圖像檢測裝置,包括:
識別模塊,用于基于圖像檢測模型對樣本圖像進行識別,得到輸出的預測框,所述預測框?qū)鰳颖緢D像中目標對象的預測區(qū)域;
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于云南聯(lián)合視覺科技有限公司,未經(jīng)云南聯(lián)合視覺科技有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202211191944.2/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 彩色圖像和單色圖像的圖像處理
- 圖像編碼/圖像解碼方法以及圖像編碼/圖像解碼裝置
- 圖像處理裝置、圖像形成裝置、圖像讀取裝置、圖像處理方法
- 圖像解密方法、圖像加密方法、圖像解密裝置、圖像加密裝置、圖像解密程序以及圖像加密程序
- 圖像解密方法、圖像加密方法、圖像解密裝置、圖像加密裝置、圖像解密程序以及圖像加密程序
- 圖像編碼方法、圖像解碼方法、圖像編碼裝置、圖像解碼裝置、圖像編碼程序以及圖像解碼程序
- 圖像編碼方法、圖像解碼方法、圖像編碼裝置、圖像解碼裝置、圖像編碼程序、以及圖像解碼程序
- 圖像形成設備、圖像形成系統(tǒng)和圖像形成方法
- 圖像編碼裝置、圖像編碼方法、圖像編碼程序、圖像解碼裝置、圖像解碼方法及圖像解碼程序
- 圖像編碼裝置、圖像編碼方法、圖像編碼程序、圖像解碼裝置、圖像解碼方法及圖像解碼程序





