[發(fā)明專利]一種基于視覺語言深度融合的多任務(wù)冷啟動目標檢測方法有效
| 申請?zhí)枺?/td> | 202210783592.3 | 申請日: | 2022-07-06 |
| 公開(公告)號: | CN114863407B | 公開(公告)日: | 2022-10-04 |
| 發(fā)明(設(shè)計)人: | 趙天成;陸驍鵬;劉鵬 | 申請(專利權(quán))人: | 宏龍科技(杭州)有限公司 |
| 主分類號: | G06V20/60 | 分類號: | G06V20/60;G06V20/70;G06V10/82;G06N3/04;G06N3/08 |
| 代理公司: | 杭州知見專利代理有限公司 33295 | 代理人: | 盧金元 |
| 地址: | 310000 浙江省杭州市濱*** | 國省代碼: | 浙江;33 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 視覺 語言 深度 融合 任務(wù) 冷啟動 目標 檢測 方法 | ||
1.一種基于視覺語言深度融合的多任務(wù)冷啟動目標檢測方法,其特征在于,包括以下步驟:
S1、將初始圖像輸入圖像編碼器,在每個輸出層生成低分辨率的視覺特征圖,分辨率不超過原始圖像的1/16,然后利用特征金字塔網(wǎng)絡(luò)對低分辨率的視覺特征圖從上到下聚合信息,輸出一組多尺度視覺特征圖{P2,P3,P4,P5};
S2、將任務(wù)集輸入到任務(wù)編碼器,輸出任務(wù)上下文詞嵌入{T0},將任務(wù)集輸入到標簽編碼器,輸出標簽上下文詞嵌入{L0};
S3、隨機初始化得到可學(xué)習建議特征{Q0}和可學(xué)習的建議框{B0};
S4、將多尺度視覺特征圖{P2,P3,P4,P5}、任務(wù)上下文詞嵌入{T0}、標簽上下文詞嵌入{L0}、可學(xué)習建議特征{Q0}和可學(xué)習的建議框{B0}輸入到多模態(tài)檢測網(wǎng)絡(luò)中,得到預(yù)測結(jié)果;
多模態(tài)檢測網(wǎng)絡(luò)包括N個級聯(lián)的單元,第i個單元的處理過程如下:
先計算vi-1,vi-1=RoiPooler({P2,P3,P4,P5},{Bi-1}),RoiPooler為區(qū)域池化,具體操作如下:
原始圖像中的候選框大小為A×A,映射到視覺特征圖后大小為(A/D)×(A/D),D為原始圖像和視覺特征圖的分辨率之比,池化后的特征圖大小為E×E,每個小區(qū)域的大小為A/(D×E),采樣點數(shù)為F,即對于每個[A/(D×E)]×[A/(D×E)]的區(qū)域,平分為F份,每一份取其中心點位置,而中線位置的像素采用雙線性插值法計算,就得到F個點的像素值,最后,取F個點像素值中最大值作為這個小區(qū)域的像素值,得到池化結(jié)果;
然后對{Q2i-1}、{Q2i}和{Ti}進行更新,[{Q2i-1},{Ti}]=MHSA([{Q2i-2},{Ti-1}]),MHSA為多頭自注意力機制,MHSA要求三個輸入q、k和v,其中q=k=v=[{Q2i-2},{Ti-1}],運算過程為:先把q、k和v進行線性升維,然后對輸出的每個頭部并行做自注意力處理,最后將結(jié)果拼接;
{Q2i}=DynamicConv({Q2i-1},vi-1),DynamicConv為動態(tài)卷積,具體操作為:對{Q2i-1}進行卷積,使用的濾波器是vi-1;
最后計算得到{Bi}和{Ci},{Bi}=RegHead({Q2i}),RegHead為多層前置神經(jīng)網(wǎng)絡(luò)型的目標定位頭,具體是將{Q2i}輸入到4層的多層感知器得到輸出;
{Ci}=γcosine(ClsHead({Q2i}),{L0}),ClsHead為多層前置神經(jīng)網(wǎng)絡(luò)型的物體分類頭,具體是指將{Q2i}輸入到2層的多層感知器得到輸出,cosine為余弦相似度,γ為常數(shù);
其中,N≥i≥1;{Bi}是{Q2i}的坐標位置;{Ci}是物體的類型。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于宏龍科技(杭州)有限公司,未經(jīng)宏龍科技(杭州)有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202210783592.3/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 上一篇:一種基于腦電溯源和偶極子選擇的運動想象分類方法
- 下一篇:運載火箭





