[發明專利]視覺深度自適應神經網絡的一維卷積位置編碼方法有效
| 申請號: | 202110263635.0 | 申請日: | 2021-03-11 |
| 公開(公告)號: | CN112801280B | 公開(公告)日: | 2022-11-08 |
| 發明(設計)人: | 張萌;吳瑞霞;李國慶;翁東鵬;王九陽 | 申請(專利權)人: | 東南大學 |
| 主分類號: | G06N3/04 | 分類號: | G06N3/04;G06N3/08 |
| 代理公司: | 南京瑞弘專利商標事務所(普通合伙) 32249 | 代理人: | 沈廉 |
| 地址: | 214000 江*** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 視覺 深度 自適應 神經網絡 卷積 位置 編碼 方法 | ||
本發明公開了一種視覺深度自適應神經網絡的一維卷積位置編碼方法,包括:1)將輸入的批量圖片分為N2個片段,圖片通道數由C轉換為D,并將寬高維度展開為1維;2)將通道維度與寬高維度進行置換;3)將2)結果與分類表征拼接,分類表征是一個可學習的向量;4)將3)結果進行一維卷積,將卷積結果作為位置編碼,并將位置編碼與3)結果進行相加;5)用1)?4)過程作為該模型的嵌入模塊,在之后使用堆疊的編碼模塊;6)對1)?5)所提出的網絡在大規模數據集上進行預訓練;7)在預訓練模型的基礎上訓練基準數據集。一維卷積位置編碼技術經驗證對于深度自適應神經網絡在視覺領域應用的精度有顯著提升效果。
技術領域
本發明涉及人工智能領域,尤其是深度自適應(Transformer)神經網絡位置編碼方法。
背景技術
Transformer模型是基于自注意力模塊的一種深度神經網絡模型,原本應用于自然語言處理領域。由于其強大的表達能力,研究者將Transformer應用在了計算機視覺任務,如圖像識別、目標檢測、語義分割等。Transformer神經網絡模型在計算機視覺任務上展現了與卷積神經網絡相匹敵甚至是比卷積神經網絡更好的結果。
近年來谷歌的Ashish Vaswani等人提出ViT,將圖片分成序列,再使用Transformer中的Embedded和堆疊的Encoder模塊用于圖像識別,在大數據集上預訓練之后,在基準數據集上測試結果達到了與卷積神經網絡相匹敵的性能;2021年依圖科技提出首次全面超越ResNet,甚至輕量化版本優于MobileNet系列的T2T-ViT模型,該模型提出了一種新穎的Tokens-to-Tokens機制,用于同時建模圖像的局部結構信息與全局相關性,同時還借鑒了CNN架構設計思想引導ViT的骨干設計。2020年加州大學伯克利分校的AravindSrinivas等人提出了BoTNet[13],將Transformer中的多頭注意力模塊用于ResNet的Bottleneck結構中,用于代替原Bottleneck中的3×3卷積,并且只在最后3個block中使用該Bottleneck Transformer Block,最終在ImageNet上的精度高達84.1%的top-1精度。Transformer在計算機視覺領域激起了研究熱潮。如何讓Transformer模型更加適用于視覺任務,如何提高Transformer模型的魯棒性、如何讓Transformer更具有解釋性以及如何輕量化Transformer都是繼續破解的課題。
Transformer中最重要的模塊為自注意力模塊,然而由于自注意力模塊不能獲取位置信息,所以必須要加上位置編碼。位置編碼有多種實現方式例如可學習的位置編碼、正弦位置編碼、2D相對位置編碼等。視覺Transformer受限于固定長度的位置編碼,并不能像CNN一樣處理不同尺度的輸入,ViT中對位置編碼進行插值,使其適用于不同的圖片尺寸輸入,但需要微調模型以保持精度。本發明所提出的發明通過一維卷積實現位置編碼,使得視覺Transformer可以更好地處理圖片的位置信息,并提升模型的精度。
發明內容
技術問題:本發明所要解決的技術問題在于提供視覺深度自適應神經網絡的一維卷積位置編碼方法,使深度自適應神經網絡可以更好地學習圖片的位置信息,改變了原有位置編碼對輸入圖像大小的限制,同時提高了模型精度。
技術方案:本發明的一種視覺深度自適應神經網絡的一維卷積位置編碼方法包括如下步驟:
步驟1:將批次圖像維度為(B、C、H、H)進行卷積,其中B表示圖片張數,C表示每張圖片的通道數,H表示圖片的長和寬;卷積核大小為P、步長為S、輸入通道數為C、輸出通道數為D,卷積后的特征圖維度為(B、D、N、N),其中N=H/P;
步驟2:將步驟1結果的N、N兩個維度展開為一個維度,轉換后結果維度為(B、D、N2);
步驟3:對步驟2結果的D、N2兩個維度進行置換,置換后結果的維度變為(B、N2、D);
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于東南大學,未經東南大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110263635.0/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種基于MC-T算法的CT圖像三維重建方法
- 下一篇:一種短樁路燈





