[發明專利]一種基于多模態融合的目標檢索跟蹤方法及系統有效
| 申請號: | 202310237584.3 | 申請日: | 2023-03-14 |
| 公開(公告)號: | CN116091551B | 公開(公告)日: | 2023-06-20 |
| 發明(設計)人: | 李芳芳;夏偉代;張健 | 申請(專利權)人: | 中南大學 |
| 主分類號: | G06T7/246 | 分類號: | G06T7/246;G06F40/279;G06T7/277;G06T7/73 |
| 代理公司: | 長沙七源專利代理事務所(普通合伙) 43214 | 代理人: | 周曉艷;李杰強 |
| 地址: | 410083 湖南*** | 國省代碼: | 湖南;43 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 多模態 融合 目標 檢索 跟蹤 方法 系統 | ||
1.一種基于多模態融合的目標檢索跟蹤方法,其特征在于,包括:
對文本數據和圖像數據進行特征提取,獲得文本特征和圖像特征;
根據文本特征和圖像特征進行回歸運算,獲得目標預測坐標;
當出現跟蹤漂移后重新感知目標位置,具體是:先劃定一個搜索區域,并以目標圖像作為模板區域,獲得模板特征和搜索特征;以模板特征作為卷積核對搜索特征進行相關性濾波運算得到相關性特征,將相關性特征輸入卷積神經網絡得到相關性特征圖;將文本特征和相關性特征圖進行乘積運算獲得重新感知的目標預測坐標;
其中,使用預訓練圖像提取骨干網絡對圖像數據進行特征提取,具體是:
以視頻t-1幀的目標預測坐標為中心,進行高斯分布采樣j個候選框,對候選區域圖像進行特征提取,得到視頻第t幀的圖像特征;
其中,根據文本特征和圖像特征進行回歸運算獲得目標預測坐標,具體是:
對圖像特征進行評分,獲得每個候選區域的目標置信值;
將圖像特征與文本特征進行內積運算得到相似度量,相似度量依次與每個候選區域的目標置信值進行乘積運算,得到最終目標置信值;
選取最終正置信值最高的N個候選區域,進行平均值運算作為目標預測坐標;其中N為大于等于2的自然數;
其中,將搜索區域和模板區域分別輸入預訓練圖像提取骨干網絡進行特征提取,得到模板特征和搜索特征。
2.根據權利要求1所述的基于多模態融合的目標檢索跟蹤方法,其特征在于,使用預訓練語言文本編碼網絡對文本數據進行特征提取,獲得文本特征。
3.根據權利要求1所述的基于多模態融合的目標檢索跟蹤方法,其特征在于,將圖像特征輸入卷積神經網絡或全連接神經層,獲得每個候選區域的目標置信值。
4.根據權利要求1所述的基于多模態融合的目標檢索跟蹤方法,其特征在于,構建回歸損失函數,利用回歸損失函數訓練對目標置信值的評估能力;
回歸損失函數為:
其中,d是回歸任務的標簽,為預測分類值。
5.根據權利要求4所述的基于多模態融合的目標檢索跟蹤方法,其特征在于,構建對象感知任務損失函數,通過對象感知任務損失函數訓練對目標位置的感知能力;
對象感知任務損失函數為:
其中,w和h分別表示搜索區域的寬和高,Ybox是對象感知任務的標簽,為目標中心預測圖,x、y為重新感知的目標預測坐標。
6.根據權利要求5所述的基于多模態融合的目標檢索跟蹤方法,其特征在于,根據對象感知任務損失函數和回歸損失函數計算跟蹤方法的整體損失:
Loss=λ×Losscls+(1-λ)×Losscen
其中,λ為回歸損失在整體損失的權重。
7.一種基于多模態融合的目標檢索跟蹤系統,其特征在于,該系統采用如權利要求1-6任意一項所述的基于多模態融合的目標檢索跟蹤方法,該系統包括多模態特征提取模塊、目標回歸模塊和對象感知模塊,所述多模態特征提取模塊用于特征提取,目標回歸模塊用于回歸運算,所述對象感知模塊用于跟蹤漂移后重新感知目標位置。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中南大學,未經中南大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202310237584.3/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:電連接組件及連接器
- 下一篇:一種基于物聯網的受煤坑自動卸料機構





