[發(fā)明專利]一種構(gòu)建基于ViT模型的密集預(yù)測(cè)任務(wù)適配器的方法在審
| 申請(qǐng)?zhí)枺?/td> | 202210365639.4 | 申請(qǐng)日: | 2022-04-08 |
| 公開(公告)號(hào): | CN114781499A | 公開(公告)日: | 2022-07-22 |
| 發(fā)明(設(shè)計(jì))人: | 陳喆;段雨辰;王文海;何軍軍;路通;代季峰;喬宇 | 申請(qǐng)(專利權(quán))人: | 上海人工智能創(chuàng)新中心 |
| 主分類號(hào): | G06K9/62 | 分類號(hào): | G06K9/62;G06N3/04;G06N3/08 |
| 代理公司: | 北京市誠(chéng)輝律師事務(wù)所 11430 | 代理人: | 耿慧敏;朱偉軍 |
| 地址: | 200000 上海市*** | 國(guó)省代碼: | 上海;31 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 構(gòu)建 基于 vit 模型 密集 預(yù)測(cè) 任務(wù) 適配器 方法 | ||
1.一種構(gòu)建基于ViT模型的密集預(yù)測(cè)任務(wù)適配器的方法,包括以下步驟:
獲取預(yù)訓(xùn)練ViT模型,該ViT模型包含用于將圖像切分為不重疊的圖像塊的多個(gè)ViT分塊;
在ViT模型外部增設(shè)適配器,該適配器包含先驗(yàn)?zāi)K以及多個(gè)交替串聯(lián)的注入器和特征提取器,所述先驗(yàn)?zāi)K用于獲得輸入圖像的空間先驗(yàn)特征,所述注入器和特征提取器成對(duì)出現(xiàn),將ViT模型按照層數(shù)分為層數(shù)相同的N塊,每一個(gè)ViT分塊配備一對(duì)注入器和特征提取器;
加載ViT模型的預(yù)訓(xùn)練權(quán)重,并在密集預(yù)測(cè)任務(wù)上利用所述適配器微調(diào)該ViT模型的參數(shù)。
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述先驗(yàn)?zāi)K依次包括莖網(wǎng)絡(luò)和多層卷積層,所述莖網(wǎng)絡(luò)對(duì)輸入圖像提取第一特征圖,所述多層卷積層對(duì)第一特征圖進(jìn)一步提取不同分辨率的多個(gè)特征圖,所述空間先驗(yàn)特征通過將所述多個(gè)特征圖長(zhǎng)寬維度進(jìn)行展平操作并進(jìn)行拼接獲得。
3.根據(jù)權(quán)利要求2所述的方法,其特征在于,所述莖網(wǎng)絡(luò)包括三層卷積層和一層最大池化層,其中卷積層的卷積核大小均為3*3,填充大小為1,步長(zhǎng)分別為2、1、1,最大池化層的核大小為2*2,步長(zhǎng)為2,所述第一特征圖是相對(duì)輸入圖像1/4分辨率的特征圖;所述多層卷積層設(shè)置為三層,各卷積層的卷積核大小為3*3,步長(zhǎng)為2,填充大小為1,得到分辨率分別為1/8、1/16、1/32的特征圖。
4.根據(jù)權(quán)利要求2所述的方法,其特征在于,所述先驗(yàn)?zāi)K包含一個(gè)莖網(wǎng)絡(luò)以及用于提取不同深度特征的四個(gè)階段,輸入圖像經(jīng)過該莖網(wǎng)絡(luò)和第一階段,得到相對(duì)輸入圖像1/4分辨率的第一特征圖,進(jìn)而,該第一特征圖依次經(jīng)第二階段、第三階段和第四階段,得到分辨率分別為1/8、1/16、1/32的特征圖,其中所述四個(gè)階段由卷積層構(gòu)成。
5.根據(jù)權(quán)利要求1所述的方法,其特征在于,對(duì)于從1進(jìn)行編號(hào)的第i注入器,當(dāng)i大于等于1時(shí),將ViT模型第i分塊的輸入特征作為詢問Query,將第i-1特征提取器的輸出作為鍵Key與值Value進(jìn)行交叉注意力機(jī)制的計(jì)算,得到與ViT模型第i分塊輸入形狀相同的輸出,傳遞回ViT模型第i分塊作為輸入;當(dāng)i等于1時(shí),將ViT模型第i分塊的輸入特征作為詢問Query,將所述先驗(yàn)?zāi)K的輸出作為鍵Key與值Value進(jìn)行交叉注意力機(jī)制的計(jì)算。
6.根據(jù)權(quán)利要求4所述的方法,其特征在于,對(duì)于從1進(jìn)行編號(hào)的第i特征提取器,當(dāng)i大于等于2時(shí),將ViT模型第i分塊的輸出特征作為鍵Key與值Value,將第i-1特征提取器的輸出特征作為詢問Query進(jìn)行交叉注意力機(jī)制的計(jì)算,并將輸出進(jìn)行歸一化后,輸入卷積前饋神經(jīng)網(wǎng)絡(luò)進(jìn)行局部特征增強(qiáng),計(jì)算得到的輸出作為第i+1注入器的輸入;當(dāng)i等于1時(shí),將ViT模型第i分塊的輸出特征作為鍵Key與值Value,將所述先驗(yàn)?zāi)K的輸出作為詢問Query進(jìn)行交叉注意力計(jì)算。
7.根據(jù)權(quán)利要求6所述的方法,其特征在于,所述注入器和所述特征提取器中的交叉注意力機(jī)制采用可變形注意力機(jī)制、全局注意力機(jī)制、滑窗注意力機(jī)制或線性空間降維注意力機(jī)制。
8.根據(jù)權(quán)利要求1所述的方法,其特征在于,還包括:利用根據(jù)權(quán)利要求1至7任一項(xiàng)所述方法構(gòu)建的基于ViT模型的密集預(yù)測(cè)任務(wù)適配器以及微調(diào)的ViT模型進(jìn)行目標(biāo)任務(wù)預(yù)測(cè)。
9.一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),其上存儲(chǔ)有計(jì)算機(jī)程序,其中,該計(jì)算機(jī)程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)根據(jù)權(quán)利要求1至8中任一項(xiàng)所述的方法的步驟。
10.一種計(jì)算機(jī)設(shè)備,包括存儲(chǔ)器和處理器,在所述存儲(chǔ)器上存儲(chǔ)有能夠在處理器上運(yùn)行的計(jì)算機(jī)程序,其特征在于,所述處理器執(zhí)行所述計(jì)算機(jī)程序時(shí)實(shí)現(xiàn)權(quán)利要求1至8中任一項(xiàng)所述的方法的步驟。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于上海人工智能創(chuàng)新中心,未經(jīng)上海人工智能創(chuàng)新中心許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202210365639.4/1.html,轉(zhuǎn)載請(qǐng)聲明來源鉆瓜專利網(wǎng)。
- 同類專利
- 專利分類
G06K 數(shù)據(jù)識(shí)別;數(shù)據(jù)表示;記錄載體;記錄載體的處理
G06K9-00 用于閱讀或識(shí)別印刷或書寫字符或者用于識(shí)別圖形,例如,指紋的方法或裝置
G06K9-03 .錯(cuò)誤的檢測(cè)或校正,例如,用重復(fù)掃描圖形的方法
G06K9-18 .應(yīng)用具有附加代碼標(biāo)記或含有代碼標(biāo)記的打印字符的,例如,由不同形狀的各個(gè)筆畫組成的,而且每個(gè)筆畫表示不同的代碼值的字符
G06K9-20 .圖像捕獲
G06K9-36 .圖像預(yù)處理,即無須判定關(guān)于圖像的同一性而進(jìn)行的圖像信息處理
G06K9-60 .圖像捕獲和多種預(yù)處理作用的組合
- 構(gòu)建墊、實(shí)體圖像構(gòu)建物和構(gòu)建構(gòu)建物支撐件的方法
- 支持松耦合的軟件構(gòu)建方法、系統(tǒng)及該系統(tǒng)的實(shí)現(xiàn)方法
- 版本的構(gòu)建系統(tǒng)及方法
- 工程構(gòu)建系統(tǒng)及其構(gòu)建方法
- 實(shí)例構(gòu)建方法、裝置及軟件系統(tǒng)
- 軟件構(gòu)建方法、軟件構(gòu)建裝置和軟件構(gòu)建系統(tǒng)
- 天花板地圖構(gòu)建方法、構(gòu)建裝置以及構(gòu)建程序
- 一種項(xiàng)目構(gòu)建方法、持續(xù)集成系統(tǒng)及終端設(shè)備
- 并行構(gòu)建的方法、裝置及設(shè)備
- 構(gòu)建肺癌預(yù)測(cè)模型構(gòu)建方法
- 一種雞用復(fù)合預(yù)混料
- 基于恒定爆發(fā)壓力的柴油機(jī)性能調(diào)整方法
- 一種酒精肝、脂肪肝的注射針劑
- 使用皮膚色度測(cè)量法篩選維生素D不足的方法
- 一種檢測(cè)鹽脅迫對(duì)葡萄苗傷害程度的引物及其應(yīng)用
- 一種托氟啶脂質(zhì)體及其制備方法
- 電子煙(VIT)
- 神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)搜索方法、裝置、計(jì)算機(jī)設(shè)備及存儲(chǔ)介質(zhì)
- 一種基于ViT的垃圾識(shí)別分類方法及其裝置和控制方法
- 基于VIT網(wǎng)絡(luò)的胃鏡圖片多標(biāo)簽分類系統(tǒng)





