[發(fā)明專利]一種基于物體導(dǎo)向外部記憶模塊的視頻物體檢測模型有效
| 申請?zhí)枺?/td> | 202010097320.9 | 申請日: | 2020-02-17 |
| 公開(公告)號(hào): | CN111339863B | 公開(公告)日: | 2022-12-20 |
| 發(fā)明(設(shè)計(jì))人: | 馬汝輝;鄧瀚銘;宋濤;華揚(yáng);管海兵 | 申請(專利權(quán))人: | 上海交通大學(xué) |
| 主分類號(hào): | G06V20/40 | 分類號(hào): | G06V20/40;G06V10/82;G06N3/04;G06N3/08 |
| 代理公司: | 上海旭誠知識(shí)產(chǎn)權(quán)代理有限公司 31220 | 代理人: | 鄭立 |
| 地址: | 200240 *** | 國省代碼: | 上海;31 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 物體 導(dǎo)向 外部 記憶 模塊 視頻 檢測 模型 | ||
本發(fā)明公開了一種基于物體導(dǎo)向外部記憶模塊的視頻物體檢測模型,涉及計(jì)算機(jī)視覺方向的視頻物體檢測領(lǐng)域,包括外部記憶模塊,以及與所述外部記憶模塊相連接的外部記憶輸入模塊和外部記憶輸出模塊;所述外部記憶模塊為物體導(dǎo)向的多級(jí)外部記憶模塊;所述外部記憶模塊包括特征存儲(chǔ)矩陣,用于存儲(chǔ)特征;所述特征由所述外部記憶輸入模塊從特征圖中進(jìn)行選擇并輸入;所述外部記憶輸出模塊將所述外部記憶模塊中的所述特征輸出到所述特征圖中。本發(fā)明具有更好的存儲(chǔ)空間利用率和更好的保存長時(shí)記憶的能力,同時(shí)達(dá)到更好的視頻物體檢測性能。
技術(shù)領(lǐng)域
本發(fā)明涉及計(jì)算機(jī)視覺方向的視頻物體檢測領(lǐng)域,尤其涉及一種基于物體導(dǎo)向外部記憶模塊的視頻物體檢測模型。
背景技術(shù)
基于圖像的最新物體檢測器為基于圖像的物體檢測提供了有效的檢測框架,但是當(dāng)這類圖像物體檢測器應(yīng)用于視頻物體檢測時(shí),由于視頻幀的質(zhì)量較低,存在各種在圖片數(shù)據(jù)集中難得出現(xiàn)的情況,例如運(yùn)動(dòng)模糊,散焦和遮擋。由于在這類低質(zhì)量視頻幀中,僅憑一幀的內(nèi)容無法準(zhǔn)確檢出物體,因此將這類基于單幀圖片的物體檢測方法直接應(yīng)用于視頻時(shí),檢測性能不能達(dá)到理想的狀態(tài)。
為了從根本上提高視頻物體檢測性能,使檢測器能夠提供更高質(zhì)量的卷積特征,最新的視頻物體檢測器則利用視頻中的豐富時(shí)序信息來增強(qiáng)卷積神經(jīng)網(wǎng)絡(luò)所提取的特征表示,尤其是在低質(zhì)量幀的特征表示。由于幀內(nèi)容移位,為了通過時(shí)序信息增強(qiáng)視頻幀的特征表示,首先要對齊不同幀的卷積特征圖,然后將對其的不同幀的特征圖與當(dāng)前幀聚合。這些時(shí)序特征圖有多種不同的名稱,例如時(shí)序記憶或記憶緩存,卷積特征圖被直接當(dāng)作用于傳播記錄時(shí)序信息的載體。我們將如何讀取和寫入時(shí)序記憶的方法放在一個(gè)統(tǒng)一的視圖下來比較,這些方法被分為密集聚合方法和循環(huán)聚合方法。
在密集聚合方法中,時(shí)序記憶由多個(gè)臨近幀提取的卷積特征圖組成。讀取涉及將所有卷積特征圖進(jìn)行空間上的對齊并聚合到當(dāng)前幀中。聚合的特征圖用于在當(dāng)前幀上進(jìn)行檢測。每次檢測后,在檢測下一幀時(shí),都會(huì)寫入下一幀的臨近幀的特征圖以替換當(dāng)前存儲(chǔ)的特征圖。上述方法旨在為當(dāng)前幀提供足夠的時(shí)序信息。
在循環(huán)聚合方法中,時(shí)序記憶內(nèi)容僅包含一個(gè)卷積特征圖,讀寫同時(shí)進(jìn)行。當(dāng)內(nèi)存特征圖對齊并聚合到當(dāng)前幀中時(shí),聚合的特征圖用于在當(dāng)前幀上進(jìn)行檢測,并成為新的內(nèi)存特征圖。上述方法相比密集聚合法的檢測速度更快,并且能夠進(jìn)行在線物體檢測。在密集聚合和循環(huán)聚合方法中,時(shí)序內(nèi)存都是由檢測網(wǎng)絡(luò)內(nèi)完整大小的特征圖組成,其大小和內(nèi)容組織完全取決于檢測網(wǎng)絡(luò)和輸入幀中的特征分布,因此被稱為“內(nèi)部記憶”。
內(nèi)部記憶在時(shí)間傳播方面有缺陷。在密集聚合方法中,通常會(huì)存儲(chǔ)20多個(gè)臨近幀的特征圖,以提供足夠的時(shí)序信息。由于內(nèi)部記憶存儲(chǔ)具有完整大小的特征圖,與檢測對象無關(guān)的冗余信息也會(huì)被存儲(chǔ)和傳播,從而導(dǎo)致存儲(chǔ)效率低下。在循環(huán)聚合方法中,所有過去的信息都被壓縮到一個(gè)特征圖中,其中信息的空間位置僅取決于當(dāng)前幀中內(nèi)容的位置,會(huì)導(dǎo)致當(dāng)當(dāng)前幀的內(nèi)容變差,物體表面特征或視野急劇變化時(shí),很容易中斷有用的長期信息,因?yàn)楫?dāng)前聚合的特征圖將成為新的時(shí)序記憶并覆蓋舊的記憶。
有鑒于已有技術(shù)的上述缺陷,本發(fā)明所要解決的技術(shù)問題是提出一個(gè)更好地利用時(shí)序信息的視頻物體檢測模型,該模型可以擁有更好的存儲(chǔ)空間利用率和更好的保存長時(shí)記憶的能力,同時(shí)達(dá)到更好的視頻物體檢測性能。
因此,本領(lǐng)域的技術(shù)人員致力于開發(fā)一種基于物體導(dǎo)向外部記憶模塊的視頻物體檢測模型,以克服現(xiàn)有技術(shù)中存在的技術(shù)缺陷。
發(fā)明內(nèi)容
有鑒于現(xiàn)有技術(shù)的上述缺陷,本發(fā)明所要解決的技術(shù)問題是提出一個(gè)更好地利用時(shí)序信息的視頻物體檢測模型,該模型可以擁有更好的存儲(chǔ)空間利用率和更好的保存長時(shí)記憶的能力,同時(shí)達(dá)到更好的視頻物體檢測性能。除此之外,該模型還需要克服兩個(gè)技術(shù)難點(diǎn):
1、如何使模型更能提取出有意義的記憶內(nèi)容來,從而為之后幀的檢測提供有意義的時(shí)序信息,同時(shí)避免記憶過于龐大,從而避免需要大量的存儲(chǔ)空間來存儲(chǔ)記憶而減慢檢測速度。除此之外,還需要保證不需要的記憶被及時(shí)清除,需要的記憶被長時(shí)間保存來維護(hù)長時(shí)記憶;
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于上海交通大學(xué),未經(jīng)上海交通大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010097320.9/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。





