[發明專利]一種基于Transformer的玻璃識別方法有效
| 申請號: | 202110446441.4 | 申請日: | 2021-04-25 |
| 公開(公告)號: | CN113139470B | 公開(公告)日: | 2023-05-23 |
| 發明(設計)人: | 徐向榮;朱佐君;劉雪飛;江楊林 | 申請(專利權)人: | 安徽工業大學 |
| 主分類號: | G06V10/82 | 分類號: | G06V10/82;G06V10/764;G06V10/774;G06N3/0455;G06N3/084 |
| 代理公司: | 安徽知問律師事務所 34134 | 代理人: | 侯曄 |
| 地址: | 243002 安*** | 國省代碼: | 安徽;34 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 transformer 玻璃 識別 方法 | ||
1.一種基于Transformer的玻璃識別方法,其特征在于,包括:
采集玻璃圖像,根據玻璃圖像制作訓練集和驗證集;
根據Transformer網絡構建深度學習網絡模型;
利用訓練集對深度學習網絡模型進行訓練,再利用驗證集對訓練后的深度學習網絡模型進行驗證得到驗證值;
根據驗證值計算得到平均精確度值MAP,再根據MAP判斷是否保存深度學習網絡模型;若判斷不保存深度學習網絡模型,則利用訓練集繼續對深度學習網絡模型進行訓練;若判斷保存深度學習網絡模型,則保存深度學習網絡模型并利用保存的深度學習網絡模型識別玻璃;
構建深度學習網絡模型的具體步驟如下:
采用CNN網絡對玻璃圖像進行特征提取得到特征圖,再利用1×1的卷積將特征圖的維度由2048降至512;
設置擴張殘差塊對512維度的特征圖進行擴張卷積處理得到擴張后的特征圖;
對512維度的特征圖進行擴張卷積處理的具體過程為:
將512維度的特征圖輸入擴張殘差塊,先利用擴張殘差塊的1×1的卷積將特征圖的維度降低到128,再將128維度的特征圖在維度上劃分為4塊特征圖,每塊特征圖的維度為32;
利用3×3的卷積將4塊特征圖進行融合并通過1×1卷積得到512維度的擴張后的特征圖;
4塊特征圖分別為X1,X2,X3和X4,X1經過3×3的卷積得到Y1,而后將Y1融入X2并將Y1和X2融合后的特征圖進行3×3的卷積得到Y2,再將Y2融入X3并將Y2和X3融合后的特征圖進行3×3的卷積得到Y3;之后將Y3融入X4并將Y3和X4融合后的特征圖進行3×3的卷積得到Y4;
將Y1,Y2,Y3和Y4進行拼接,再將拼接后的特征圖進行1×1的卷積得到擴張后的特征圖;
根據Transformer網絡結構構建編碼層和解碼層,該編碼層對展平后的擴張后的特征圖進行位置編碼,解碼層對編碼后的特征圖進行解碼;
設置兩個多層感知網絡,將解碼后的特征圖輸入至兩個多層感知網絡進行分類處理和邊界框的回歸處理得到目標檢測圖和S個玻璃區域的邊界框;
設置多頭注意力層,先對目標檢測圖和S個玻璃區域的邊界框進行編碼,再將編碼后的目標檢測圖和S個玻璃區域的邊界框輸入至多頭注意力層獲得注意力特征圖,其中,S為目標檢測圖中玻璃區域數目;
再設置掩膜分割卷積頭得到深度學習網絡模型,其中,掩膜分割卷積頭對注意力特征圖進行處理得到玻璃實例分割圖;
對深度學習網絡模型進行訓練的具體過程為:先設置權重初始化和優化器,而后將訓練集中的玻璃圖像輸入至深度學習網絡模型進行訓練;
掩膜分割卷積頭對注意力特征圖進行處理的具體過程為:
對注意力特征圖進行上采樣得到大小為的特征圖,同時利用CNN網絡對輸入的玻璃圖像提取得到大小為的高分辨率特征圖,再對高分辨率特征圖進行復制處理得到的特征圖;其中,H為特征圖的高度,W為特征圖的寬度,M為多頭注意力層中的頭數;
將大小為的特征圖和的特征圖進行拼接得到的特征圖;
利用BN激活函數和RELU激活函數對的特征圖進行處理,再將處理后的特征圖經過1×1的卷積處理獲得大小為的特征圖;
利用argmax對的特征圖進行語義分割得到玻璃實例分割圖。
2.根據權利要求1所述的一種基于Transformer的玻璃識別方法,其特征在于,根據驗證值判斷是否保存深度學習網絡模型的具體過程為:設定閾值為90%,若MAP≥90%,則保存深度學習網絡模型;若MAP<90%,則不保存深度學習網絡模型。
3.根據權利要求1所述的一種基于Transformer的玻璃識別方法,其特征在于,利用Res2Net對玻璃圖像進行細粒度特征提取得到特征圖。
4.根據權利要求2所述的一種基于Transformer的玻璃識別方法,其特征在于,驗證值包括TP、FP、FN和TN,
其中,TP為被深度學習網絡模型識別正確且認為是正樣本的樣本;FP為被深度學習網絡模型識別正確且認為是負樣本的樣本;FN為被深度學習網絡模型識別錯誤且認為是正樣本的樣本;TN為被深度學習網絡模型識別錯誤且認為是負樣本的樣本。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于安徽工業大學,未經安徽工業大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110446441.4/1.html,轉載請聲明來源鉆瓜專利網。
- 基于Transformer+LSTM神經網絡模型的商品銷量預測方法及裝置
- 一種基于Transformer模型自然場景文字識別方法
- 一種深度Transformer級聯神經網絡模型壓縮算法
- 點云分割方法、系統、介質、計算機設備、終端及應用
- 基于Transformer的中文智能對話方法
- 一種基于改進Transformer模型的飛行器故障診斷方法和系統
- 一種基于Transformer模型的機器翻譯模型優化方法
- 基于Transformer和增強交互型MPNN神經網絡的小分子表示學習方法
- 基于U-Transformer多層次特征重構的異常檢測方法及系統
- 基于EfficientDet和Transformer的航空圖像中的飛機檢測方法





