[發(fā)明專利]基于Transformer全局與局部注意力交互的目標(biāo)檢測(cè)方法在審
| 申請(qǐng)?zhí)枺?/td> | 202210399175.9 | 申請(qǐng)日: | 2022-04-15 |
| 公開(kāi)(公告)號(hào): | CN114743017A | 公開(kāi)(公告)日: | 2022-07-12 |
| 發(fā)明(設(shè)計(jì))人: | 王坤峰;陳陽(yáng);張書(shū)琴;陳思涵 | 申請(qǐng)(專利權(quán))人: | 北京化工大學(xué) |
| 主分類號(hào): | G06V10/40 | 分類號(hào): | G06V10/40;G06V10/80;G06K9/62;G06V10/82;G06N3/04;G06N3/08 |
| 代理公司: | 北京市恒有知識(shí)產(chǎn)權(quán)代理事務(wù)所(普通合伙) 11576 | 代理人: | 郭文浩;尹文會(huì) |
| 地址: | 100029 *** | 國(guó)省代碼: | 北京;11 |
| 權(quán)利要求書(shū): | 查看更多 | 說(shuō)明書(shū): | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 基于 transformer 全局 局部 注意力 交互 目標(biāo) 檢測(cè) 方法 | ||
本發(fā)明屬于計(jì)算機(jī)視覺(jué)領(lǐng)域,具體涉及了一種基于Transformer全局與局部注意力交互的目標(biāo)檢測(cè)方法,旨在解決Transformer模型計(jì)算成本高、復(fù)雜度高、全局和局部交互不充分,導(dǎo)致目標(biāo)檢測(cè)結(jié)果準(zhǔn)確性和精度低的問(wèn)題。本發(fā)明包括:對(duì)待處理二維圖像預(yù)處理;以圖像令牌為單位進(jìn)行窗口劃分;基于窗口做局部多頭注意力計(jì)算;局部窗口下采樣,拼接為一個(gè)新的全局窗口并做全局多頭注意力計(jì)算;進(jìn)行全局和局部的交互,使全局信息的補(bǔ)充到局部信息;進(jìn)行圖像令牌合并獲得多尺度特征后送入目標(biāo)檢測(cè)模塊,獲取待處理二維圖像的感興趣區(qū)域的類別及位置坐標(biāo)。本發(fā)明具有較強(qiáng)的特征表達(dá)能力,可以克服復(fù)雜環(huán)境下目標(biāo)存在的巨大差異性,具有較高的處理速度,并能獲取更精準(zhǔn)的檢測(cè)結(jié)果。
技術(shù)領(lǐng)域
本發(fā)明屬于計(jì)算機(jī)視覺(jué)領(lǐng)域,具體涉及了一種基于Transformer全局與局部注意力交互的目標(biāo)檢測(cè)方法。
背景技術(shù)
目標(biāo)檢測(cè)一直是計(jì)算機(jī)視覺(jué)領(lǐng)域中的核心任務(wù)。計(jì)算機(jī)收集存儲(chǔ)學(xué)習(xí)現(xiàn)實(shí)世界的圖像,提取深層特征最終精準(zhǔn)高效的捕獲圖像中感興趣的區(qū)域,并在該目標(biāo)周圍繪制邊界框,得到其類別信息與二維坐標(biāo)信息。隨著智能化與信息化時(shí)代的發(fā)展,目標(biāo)檢測(cè)技術(shù)越來(lái)越滲透在實(shí)際應(yīng)用中,如自動(dòng)駕駛、人臉識(shí)別、公共安全等,在學(xué)術(shù)界或商業(yè)界具有很大的現(xiàn)實(shí)研究意義與價(jià)值。
目前主流目標(biāo)檢測(cè)方法分為基于傳統(tǒng)卷積的深度學(xué)習(xí)方法與基于Transformer自注意力機(jī)制新型模型檢測(cè)方法。傳統(tǒng)卷積方法通過(guò)有無(wú)候選框生成分為兩階段和單階段兩類。兩階段方法首先學(xué)習(xí)生成候選框,而后基于回歸進(jìn)行定位;單階段方法不生成候選框而是基于整幅圖像直接做回歸任務(wù)。Transformer模型首先應(yīng)用在自然語(yǔ)言理解(NLP)領(lǐng)域,其利用編碼器-解碼器和自注意力機(jī)制實(shí)現(xiàn)對(duì)信息的并行計(jì)算而突破傳統(tǒng)卷積方法的時(shí)序限制,編碼器由若干個(gè)自注意力模塊和前饋神經(jīng)網(wǎng)絡(luò)堆疊構(gòu)成,其中自注意力機(jī)制通過(guò)計(jì)算查詢向量Q和一系列鍵值向量K的注意力系數(shù)代表數(shù)據(jù)或特征間重要性,然后再作用到值向量V,從而篩選大量冗余信息而聚焦自身信息,減少對(duì)外部信息的依賴。解碼器整體和編碼器結(jié)構(gòu)類似,只是多了一個(gè)用于與編碼器的輸出進(jìn)行交互的多頭注意力機(jī)制。隨后,Transformer逐步向視覺(jué)領(lǐng)域拓展,相比傳統(tǒng)卷積模型,基于Transformer自注意力機(jī)制檢測(cè)模型作為信息提取的骨干網(wǎng),不僅可以通過(guò)捕獲圖像高級(jí)語(yǔ)義特征更有利于判斷物體類別及位置信息,而且可以實(shí)現(xiàn)計(jì)算并行化處理。
總的來(lái)說(shuō),現(xiàn)有技術(shù)還存在以下問(wèn)題:基于深度學(xué)習(xí)的兩階段和單階段方法網(wǎng)絡(luò)結(jié)構(gòu)龐大復(fù)雜,且像素間的長(zhǎng)距離信息依賴性被丟失,導(dǎo)致檢測(cè)精度不高;基于自注意力機(jī)制的Transformer模型補(bǔ)充基于深度網(wǎng)絡(luò)學(xué)習(xí)模型的視野局限缺點(diǎn),具有對(duì)長(zhǎng)距離特征的建模能力,但自注意機(jī)制的全局交互的二次復(fù)雜度阻礙其在密集預(yù)測(cè)任務(wù)的應(yīng)用,另外對(duì)全局信息的提取過(guò)于集中而導(dǎo)致局部和全局交互不充分。
發(fā)明內(nèi)容
為了解決現(xiàn)有技術(shù)中的上述問(wèn)題,即Transformer模型計(jì)算成本高、復(fù)雜度高、全局和局部交互不充分,導(dǎo)致目標(biāo)檢測(cè)結(jié)果準(zhǔn)確性和精度低的問(wèn)題,本發(fā)明提供了一種基于Transformer全局與局部注意力交互的目標(biāo)檢測(cè)方法,該目標(biāo)檢測(cè)方法包括:
將待處理圖像劃分為4*4的圖像令牌,線性投影成高緯度向量,并對(duì)投影的第一初始特征圖進(jìn)行第一設(shè)定次數(shù)的全局局部注意力特征變換,獲得第一特征圖;
對(duì)所述第一特征圖進(jìn)行圖像令牌合并,并對(duì)合并的初始第二特征圖進(jìn)行第二設(shè)定次數(shù)的全局局部注意力特征變換,獲得第二特征圖;
對(duì)所述第二特征圖進(jìn)行圖像令牌合并,并對(duì)合并的初始第三特征圖進(jìn)行第三設(shè)定次數(shù)的全局局部注意力特征變換,獲得第三特征圖;
對(duì)所述第三特征圖進(jìn)行圖像令牌合并,并對(duì)合并的初始第四特征圖進(jìn)行第四設(shè)定次數(shù)的全局局部注意力特征變換,獲得第四特征圖;
將所述第二特征圖、所述第三特征圖和所述第四特征圖的特征信息分別輸入檢測(cè)頭,獲得目標(biāo)檢測(cè)結(jié)果。
在一些優(yōu)選的實(shí)施例中,所述圖像令牌合并,其方法為:
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于北京化工大學(xué),未經(jīng)北京化工大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202210399175.9/2.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專利網(wǎng)。
- 基于Transformer+LSTM神經(jīng)網(wǎng)絡(luò)模型的商品銷量預(yù)測(cè)方法及裝置
- 一種基于Transformer模型自然場(chǎng)景文字識(shí)別方法
- 一種深度Transformer級(jí)聯(lián)神經(jīng)網(wǎng)絡(luò)模型壓縮算法
- 點(diǎn)云分割方法、系統(tǒng)、介質(zhì)、計(jì)算機(jī)設(shè)備、終端及應(yīng)用
- 基于Transformer的中文智能對(duì)話方法
- 一種基于改進(jìn)Transformer模型的飛行器故障診斷方法和系統(tǒng)
- 一種基于Transformer模型的機(jī)器翻譯模型優(yōu)化方法
- 基于Transformer和增強(qiáng)交互型MPNN神經(jīng)網(wǎng)絡(luò)的小分子表示學(xué)習(xí)方法
- 基于U-Transformer多層次特征重構(gòu)的異常檢測(cè)方法及系統(tǒng)
- 基于EfficientDet和Transformer的航空?qǐng)D像中的飛機(jī)檢測(cè)方法
- 用于靈活柵格光網(wǎng)絡(luò)全局優(yōu)化的系統(tǒng)架構(gòu)及其全局優(yōu)化方法
- 一種基于多數(shù)據(jù)庫(kù)類型的SQL執(zhí)行方法和裝置
- 用于移動(dòng)AdHoc網(wǎng)絡(luò)的路由入侵檢測(cè)系統(tǒng)
- 一種分布式事務(wù)管理方法及系統(tǒng)
- 全局資源分配方法和裝置
- 一種通信方法及裝置
- 一種高效分布式全局鎖協(xié)調(diào)方法
- 一種帶上下文信息編碼的語(yǔ)義分割卷積神經(jīng)網(wǎng)絡(luò)
- 一種批量腳本的全局參數(shù)替換方法及裝置
- 一種基于全局變量的家居參數(shù)化模型建模系統(tǒng)及方法





