[發明專利]一種基于全局特征感知的目標檢測方法及系統有效
| 申請號: | 202110954164.8 | 申請日: | 2021-08-19 |
| 公開(公告)號: | CN113673420B | 公開(公告)日: | 2022-02-15 |
| 發明(設計)人: | 張新鈺;王力;李駿;曾維佳;劉偉;楊磊 | 申請(專利權)人: | 清華大學 |
| 主分類號: | G06V20/58 | 分類號: | G06V20/58;G06V10/26;G06V10/80;G06V10/82;G06K9/62;G06N3/04 |
| 代理公司: | 北京三聚陽光知識產權代理有限公司 11250 | 代理人: | 張建綱 |
| 地址: | 100084*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 全局 特征 感知 目標 檢測 方法 系統 | ||
1.一種基于全局特征感知的目標檢測方法,所述方法包括:
實時獲取相機采集的RGB圖像,對該圖像進行切割,獲取原始監控圖像;
將原始監控圖像輸入訓練好的全局感知特征提取器,輸出檢測結果;
所述全局感知特征提取器包括:圖像切分模塊、Transfor mer編碼器、上采樣和通道壓縮模塊、特征重標定模塊和分類網絡;
所述圖像切分模塊,用于對待檢測的圖像進行切分,形成若干個固定大小的圖像塊,并將位置嵌入添加到圖像塊中,輸出線性嵌入序列;
所述Transformer編碼器,用于利用自注意力機制對線性嵌入序列進行處理,提取整張圖像的特征圖;
所述上采樣和通道壓縮模塊,用于擴大整張圖像的特征圖的分辨率,并進行通道壓縮;
所述特征重標定模塊,用于將上采樣和通道壓縮模塊輸出的特征圖與待檢測圖像進行拼接,利用注意力機制對拼接特征的通道進行權重分配,再將加權后的特征圖送入分類網絡中;
所述分類網絡:用于對加權后的特征圖進行目標檢測,輸出檢測結果。
2.根據權利要求1所述的基于全局特征感知的目標檢測方法,其特征在于,所述圖像切分模塊的具體實現過程為:
將原始監控圖像切分為圖像塊pi,(H,W)表示原始監控圖像的分辨率,C為圖像的通道數,其中S2表示圖像塊大小,N表示圖像塊的數量并且將圖像塊pi鋪展成一維向量后使用全連接層FC(·)對該圖像塊進行“詞嵌入”操作,“詞嵌入”向量Emb(i)為:
Emb(i)=FC(Flatten(pi))+Lpi
其中,Flatten(pi)為將圖像塊pi鋪展成一維向量;Lpi為一個可學習的變量,以表征圖像塊的位置編碼信息;
將線性嵌入序列[Emb(0),Emb(1),…,Emb(N)]輸出至Transfor mer編碼器。
3.根據權利要求2所述的基于全局特征感知的目標檢測方法,其特征在于,所述Transfor mer編碼器由L個塊堆疊而成,每個塊均包含第一層歸一化單元、多頭自注意力模塊、第一加法單元、第二層歸一化單元、多層感知機和第二加法單元;
對于第l個塊,其輸入向量為yl-1,其中,第一個塊的輸入向量為y0=[Emb(0),Emb(1),…,Emb(N)];上一個塊的輸出為下一個塊的輸入;
第一層歸一化單元對輸入向量yl-1進行層歸一化處理得到向量X=LN(yl-1);
多頭自注意力模塊包括M個單頭,第m個單頭的自注意機制的輸出SAm為:
其中,和均代表線性轉換矩陣,代表第m個單頭的矩陣的維度;
將M個單頭的自注意機制的輸出拼接起來,通過乘一個線性變換矩陣WO得到多頭自注意力模塊的輸出MHA(X):
MHA(X)=Concat[SA1,…,SAM]Wo
第一加法單元,用于將多頭自注意力模塊的輸出與輸入向量進行相加,結果為y′l:
y′l=MHA(X)+yl-1
第二層歸一化單元,用于對y′l進行層歸一化處理得到向量LN(y′l);
多層感知機,用于對向量LN(y′l)進行處理,輸出處理結果:MLP(LN(y′l))
第二加法單元,用于將多層感知機的輸出與y′l進行相加:
yl=MLP(LN(y′l))+y′l
則第l個塊的輸出為yl,第L個塊的輸出yL為Transfor mer編碼器的輸出。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于清華大學,未經清華大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110954164.8/1.html,轉載請聲明來源鉆瓜專利網。





