[發明專利]一種基于多模態融合的目標檢索跟蹤方法及系統有效
| 申請號: | 202310237584.3 | 申請日: | 2023-03-14 |
| 公開(公告)號: | CN116091551B | 公開(公告)日: | 2023-06-20 |
| 發明(設計)人: | 李芳芳;夏偉代;張健 | 申請(專利權)人: | 中南大學 |
| 主分類號: | G06T7/246 | 分類號: | G06T7/246;G06F40/279;G06T7/277;G06T7/73 |
| 代理公司: | 長沙七源專利代理事務所(普通合伙) 43214 | 代理人: | 周曉艷;李杰強 |
| 地址: | 410083 湖南*** | 國省代碼: | 湖南;43 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 多模態 融合 目標 檢索 跟蹤 方法 系統 | ||
本發明提供一種基于多模態融合的目標檢索跟蹤方法,包括:對文本數據和圖像數據進行特征提取,獲得文本特征和圖像特征;根據文本特征和圖像特征進行回歸運算,獲得目標預測坐標;當出現跟蹤漂移后重新感知目標位置,具體是:先劃定一個搜索區域,并以目標圖像作為模板區域,獲得模板特征和搜索特征;以模板特征作為卷積核對搜索特征進行相關性濾波運算得到相關性特征,將相關性特征輸入卷積神經網絡得到相關性特征圖;將文本特征和相關性特征圖進行乘積運算獲得重新感知的目標預測坐標。本發明還提供了使用該方法的目標檢索跟蹤系統。相較于傳統跟蹤算法大大提高了面對復雜跟蹤環境的跟蹤魯棒性,提高了模型目標回歸的精度。
技術領域
本發明涉及目標跟蹤技術領域,具體涉及一種基于多模態融合的目標檢索跟蹤方法及系統。
背景技術
目標跟蹤是計算機視覺中的一項重要任務。綜合性工業和國防設備需無人系統在復雜境況下能實現全天候高精確度應用。近年來,視覺目標跟蹤技術在機器人研發、自主汽車行業、人機界面設備和視頻監控設備等方面獲得了廣泛的運用。
通常,現有的方法大多使用邊界框(BBox)初始化第一幀中的目標對象,并隨著目標對象的移動調整BBox。雖然這些方法在實際應用展現了不錯的跟蹤精度,但是在應對一系列跟蹤挑戰時,會出現跟蹤失敗,算法魯棒性不強的問題。
究其原因,主要是因為現有算法是僅利用前一幀圖像的預測中心進行高斯采樣,基于第一幀圖像進行目標回歸訓練的算法,會因為跟蹤過程中目標外觀特征發生的較大形變出現跟蹤漂移,極大的影響跟蹤精度。同時,大部分方法都沒有將目標文本信息給利用起來,僅僅比較候選區域圖像特征與目標特制的相似度。
綜上所述,急需一種基于多模態融合的目標檢索跟蹤方法及系統以解決現有技術中存在的問題。
發明內容
本發明目的在于提供一種基于多模態融合的目標檢索跟蹤方法,旨在解決現有跟蹤算法由于跟蹤漂移出現跟蹤失敗、算法魯棒性不強的問題,具體技術方案如下:
一種基于多模態融合的目標檢索跟蹤方法,包括:
對文本數據和圖像數據進行特征提取,獲得文本特征和圖像特征;
根據文本特征和圖像特征進行回歸運算,獲得目標預測坐標;
當出現跟蹤漂移后重新感知目標位置,具體是:先劃定一個搜索區域,并以目標圖像作為模板區域,獲得模板特征和搜索特征;以模板特征作為卷積核對搜索特征進行相關性濾波運算得到相關性特征,將相關性特征輸入卷積神經網絡得到相關性特征圖;將文本特征和相關性特征圖進行乘積運算獲得重新感知的目標預測坐標。
以上技術方案中優選的,使用預訓練語言文本編碼網絡對文本數據進行特征提取,獲得文本特征;使用預訓練圖像提取骨干網絡對圖像數據進行特征提取,獲得圖像特征。
以上技術方案中優選的,使用預訓練圖像提取骨干網絡對圖像數據進行特征提取,具體是:
以視頻幀的目標預測坐標為中心,進行高斯分布采樣個候選框,對候選區域圖像進行特征提取,得到視頻第幀的圖像特征。
以上技術方案中優選的,根據文本特征和圖像特征進行回歸運算獲得目標預測坐標,具體是:
對圖像特征進行評分,獲得每個候選區域的目標置信值;
將圖像特征與文本特征進行內積運算得到相似度量,相似度量依次與每個候選區域的目標置信值進行乘積運算,得到最終目標置信值;
選取最終正置信值最高的個候選區域,進行平均值運算作為目標預測坐標;其中為大于等于2的自然數。
以上技術方案中優選的,將圖像特征輸入卷積神經網絡或全連接神經層,獲得每個候選區域的目標置信值。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中南大學,未經中南大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202310237584.3/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:電連接組件及連接器
- 下一篇:一種基于物聯網的受煤坑自動卸料機構





