[發(fā)明專利]基于多模態(tài)交互和多階段優(yōu)化的實時RGBT目標跟蹤方法在審
| 申請?zhí)枺?/td> | 202210673885.6 | 申請日: | 2022-06-15 |
| 公開(公告)號: | CN115170605A | 公開(公告)日: | 2022-10-11 |
| 發(fā)明(設(shè)計)人: | 任桐煒;武港山;侯瑞超;許博約 | 申請(專利權(quán))人: | 南京大學 |
| 主分類號: | G06T7/246 | 分類號: | G06T7/246;G06T7/269;G06V10/764;G06V10/80;G06V10/82;G06N3/04;G06N3/08 |
| 代理公司: | 南京天翼專利代理有限責任公司 32112 | 代理人: | 奚銘 |
| 地址: | 210093 江*** | 國省代碼: | 江蘇;32 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 基于 多模態(tài) 交互 階段 優(yōu)化 實時 rgbt 目標 跟蹤 方法 | ||
本發(fā)明提出了一種基于多模態(tài)交互和多階段優(yōu)化的實時RGBT目標跟蹤方法,跟蹤模型包括特征提取模塊、多模態(tài)交互模塊、目標分類器以及結(jié)果優(yōu)化模塊;利用公開的RGBT數(shù)據(jù)集對跟蹤模型進行訓練,包括離線訓練和在線訓練兩個階段。本發(fā)明構(gòu)建多模態(tài)交互模塊學習魯棒的特征表達,改善跨模態(tài)特征之間的注意力計算方式,實現(xiàn)兩種模態(tài)的互補增強,通過引入門控函數(shù),有效去除冗余噪聲的影響;構(gòu)建多階段優(yōu)化模塊結(jié)合光流算法和優(yōu)化模型實現(xiàn)跟蹤結(jié)目標的精確重定位,有效緩解相機抖動、局部遮擋等因素造成的影響,提升跟蹤模型的魯棒性和實時性。
技術(shù)領(lǐng)域
本發(fā)明屬于計算機視覺目標跟蹤技術(shù)領(lǐng)域,具體涉及一種基于多模態(tài)交互和多階段優(yōu)化的實時RGBT目標跟蹤方法。
背景技術(shù)
可見光傳感器廣泛用于各個領(lǐng)域,但是由于夜晚光線較弱、雨霧天氣可視距離受限,導致可見光攝像頭無法正常工作,為了滿足全天候運行需求,現(xiàn)有研究工作將結(jié)合多模態(tài)光電傳感器,即可見光和熱紅外設(shè)備,實現(xiàn)熱源信息和環(huán)境細節(jié)信息互補,構(gòu)建魯棒特征,提升模型性能。
RGBT跟蹤任務(wù)是通過整合可見光譜和熱光譜的互補特征來設(shè)計一個強大的全天候跟蹤器,可以廣泛應用于安防巡檢、輔助駕駛、人群測溫等領(lǐng)域。RGBT目標跟蹤在抑制噪聲的同時充分融合雙模態(tài)互補線索,并根據(jù)初始幀的標簽預測目標在后續(xù)幀中的包圍框。許多方法利用模態(tài)的互補性,在多個領(lǐng)域提升了算法性能,但是在光照不斷變化的環(huán)境中可見光模態(tài)不穩(wěn)定;熱紅外模態(tài)在目標與背景溫度接近時形成熱交叉,分辨力也會下降,如果不進行動態(tài)特征選擇,反而會增加噪聲,削弱判別力的特征比表達,導致跟蹤目標丟失。因此,需要進一步探索多模態(tài)之間的內(nèi)在關(guān)聯(lián),實現(xiàn)特征互補、冗余噪聲去除。
現(xiàn)有一類方法致力于研究多層特征的提取,生成一個可靠的特征表達,從而提升跟蹤精度,另一類方法研究模態(tài)融合權(quán)重,實現(xiàn)特征的選擇。但是,在光照變化和動態(tài)干擾等具有挑戰(zhàn)性的場景下,這些現(xiàn)有跟蹤方法性能會下降。此外,視覺跟蹤中常見的挑戰(zhàn)也需要更多的關(guān)注。通過觀察,攝像機的運動和縮放變化會導致目標丟失,在這種情況下,許多跟蹤器無法預測精確的結(jié)果。因此,在多模態(tài)交互設(shè)計和跟蹤結(jié)果細化方面仍有一定的提升空間。
發(fā)明內(nèi)容
本發(fā)明要解決的問題是:針對現(xiàn)有跟蹤技術(shù)中的不足,提出一種基于多模態(tài)交互和多階段優(yōu)化的實時RGBT目標跟蹤方法,提升跟蹤器模型實時性和魯棒性。
本發(fā)明的技術(shù)方案為:基于多模態(tài)交互和多階段優(yōu)化的實時RGBT目標跟蹤方法,基于紅外光和可見光兩種模態(tài)交互,構(gòu)建一個目標跟蹤模型,首先利用已有RGBT目標跟蹤數(shù)據(jù)進行離線訓練,在線跟蹤時,根據(jù)首幀確定的跟蹤目標在線微調(diào)跟蹤目標模型參數(shù),然后對視頻序列進行實時目標跟蹤;所述目標跟蹤模型包括特征提取模塊、多模態(tài)交互模塊、目標分類器以及結(jié)果優(yōu)化模塊,實現(xiàn)如下:
步驟1):將經(jīng)過時空配準的熱紅外和可見光圖像作為目標跟蹤模型的輸入;
步驟2):構(gòu)建共享權(quán)重的雙流特征提取模塊,所述雙流特征提取模塊利用輕量化VGG-M的前三層卷積對輸入的熱紅外及可見光圖像提取紅外和可見光的深度特征;
步驟3):構(gòu)建多模態(tài)交互融合模塊,對提取的紅外和可見光的深度特征,計算多頭跨模態(tài)注意力生成特征殘差圖,以雙向增強的方式提升模態(tài)質(zhì)量:
單一跨模態(tài)注意的從紅外到可見光模式的判別特征轉(zhuǎn)換表示為公式如下:
上式中,表示一對從步驟2)中獲取的可見光和紅外深度特征,R表示可見光,T表示紅外,公式(1)中Q,K和V分別表示查詢、鍵和值,均經(jīng)過1×1卷積操作進行變維,dk表示尺度因子,首先,建立QR和KT之間的交叉模態(tài)關(guān)聯(lián),然后通過softmax函數(shù)生成注意矩陣,最后,交叉模態(tài)特征由注意力矩陣和VT加權(quán)生成,為了兼顧不同空間的注意力分布,將單一跨模態(tài)注意擴展到多頭結(jié)構(gòu),公式如下:
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于南京大學,未經(jīng)南京大學許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202210673885.6/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 用于智能機器人系統(tǒng)多模態(tài)輸出的方法及裝置
- 一種基于深度學習的多模態(tài)醫(yī)學影像識別方法及裝置
- 一種基于多模態(tài)生成式對抗網(wǎng)絡(luò)的云圖分類方法
- 一種基于多模態(tài)信息的食道功能性疾病診斷系統(tǒng)
- 一種有監(jiān)督的快速離散多模態(tài)哈希檢索方法和系統(tǒng)
- 一種多模態(tài)數(shù)據(jù)處理方法及系統(tǒng)
- 一種基于多模態(tài)學習的電力攻擊識別方法
- 多源多模態(tài)數(shù)據(jù)的處理系統(tǒng)及應用該系統(tǒng)的方法
- 一種基于門機制多模態(tài)融合的情感分析方法
- 面向?qū)捰蝻w行的多模態(tài)精確劃分方法





