[發(fā)明專利]一種基于Transformer的玻璃識(shí)別方法有效
| 申請(qǐng)?zhí)枺?/td> | 202110446441.4 | 申請(qǐng)日: | 2021-04-25 |
| 公開(公告)號(hào): | CN113139470B | 公開(公告)日: | 2023-05-23 |
| 發(fā)明(設(shè)計(jì))人: | 徐向榮;朱佐君;劉雪飛;江楊林 | 申請(qǐng)(專利權(quán))人: | 安徽工業(yè)大學(xué) |
| 主分類號(hào): | G06V10/82 | 分類號(hào): | G06V10/82;G06V10/764;G06V10/774;G06N3/0455;G06N3/084 |
| 代理公司: | 安徽知問(wèn)律師事務(wù)所 34134 | 代理人: | 侯曄 |
| 地址: | 243002 安*** | 國(guó)省代碼: | 安徽;34 |
| 權(quán)利要求書: | 查看更多 | 說(shuō)明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 transformer 玻璃 識(shí)別 方法 | ||
本發(fā)明公開了一種基于Transformer的玻璃識(shí)別方法,屬于圖像識(shí)別技術(shù)領(lǐng)域,本發(fā)明方法包括:采集玻璃圖像,根據(jù)玻璃圖像制作訓(xùn)練集和驗(yàn)證集;之后根據(jù)Transformer網(wǎng)絡(luò)構(gòu)建深度學(xué)習(xí)網(wǎng)絡(luò)模型;然后利用訓(xùn)練集對(duì)深度學(xué)習(xí)網(wǎng)絡(luò)模型進(jìn)行訓(xùn)練,再利用驗(yàn)證集對(duì)訓(xùn)練后的深度學(xué)習(xí)網(wǎng)絡(luò)模型進(jìn)行驗(yàn)證得到驗(yàn)證值;根據(jù)驗(yàn)證值計(jì)算得到平均精確度值MAP,再根據(jù)MAP判斷是否保存深度學(xué)習(xí)網(wǎng)絡(luò)模型;若判斷保存深度學(xué)習(xí)網(wǎng)絡(luò)模型,利用保存的深度學(xué)習(xí)網(wǎng)絡(luò)模型識(shí)別玻璃。本發(fā)明的目的在于克服現(xiàn)有技術(shù)中,機(jī)器人識(shí)別玻璃精度低,進(jìn)而導(dǎo)致機(jī)器人會(huì)撞上障礙玻璃的不足,本發(fā)明可以有效地識(shí)別出玻璃的位置區(qū)域,且提高了檢測(cè)精度,進(jìn)而可以避免機(jī)器人撞上障礙玻璃,具有較高的實(shí)用性。
技術(shù)領(lǐng)域
本發(fā)明屬于圖像識(shí)別技術(shù)領(lǐng)域,更具體地說(shuō),涉及一種基于Transformer的玻璃識(shí)別方法。
背景技術(shù)
機(jī)器人在復(fù)雜場(chǎng)景中需要依賴傳感器來(lái)感知周邊環(huán)境,常見的有激光傳感器,單雙目相機(jī)以及各種深度相機(jī)等,但這些傳感器可以讓機(jī)器人輕易感知到一些紋理清晰的物品,但就隨處可見的玻璃制品而言,玻璃區(qū)域內(nèi)的內(nèi)容通常與玻璃后面的內(nèi)容相似,識(shí)別它并非易事。如果我們機(jī)器人的傳感器不能準(zhǔn)確識(shí)別出這些玻璃,那么將導(dǎo)致機(jī)器人在最初的SLAM過(guò)程中就釀成大錯(cuò)。
研究者們最初用激光測(cè)距儀,基于激光束的反射特性設(shè)計(jì)算法來(lái)滿足機(jī)器人對(duì)玻璃墻的探測(cè),但不能讓機(jī)器人感知其語(yǔ)義信息。有研究者提出一種不僅使用彩色圖像而且使用激光反射強(qiáng)度圖像的透明物體視覺檢測(cè)方法,但僅僅局限于短距離的識(shí)別。隨著深度學(xué)習(xí)的發(fā)展,視覺檢測(cè)應(yīng)用越來(lái)越廣泛。經(jīng)典的實(shí)例分割算法Mask-RCNN只能透過(guò)玻璃識(shí)別出其后面的物體。同時(shí)RGB-D相機(jī)只能測(cè)出玻璃背后物體的深度信息,深度預(yù)測(cè)方法如深度估計(jì)算法如MegaDepth同樣也是僅僅預(yù)測(cè)到錯(cuò)誤的玻璃后的物體深度。現(xiàn)存的方法在玻璃檢測(cè)方面都存在很大的誤差,很不利于機(jī)器人技術(shù)的發(fā)展。
發(fā)明內(nèi)容
1.要解決的問(wèn)題
本發(fā)明的目的在于克服現(xiàn)有技術(shù)中,機(jī)器人識(shí)別玻璃精度低,進(jìn)而導(dǎo)致機(jī)器人會(huì)撞上障礙玻璃的不足,提出一種基于Transformer的玻璃識(shí)別方法,可以有效地識(shí)別出玻璃的位置區(qū)域,且提高了檢測(cè)精度,進(jìn)而可以避免機(jī)器人撞上障礙玻璃,具有較高的實(shí)用性。
2.技術(shù)方案
為了解決上述問(wèn)題,本發(fā)明所采用的技術(shù)方案如下:
本發(fā)明的一種基于Transformer的玻璃識(shí)別方法,包括:采集玻璃圖像,根據(jù)玻璃圖像制作訓(xùn)練集和驗(yàn)證集;然后根據(jù)Transformer網(wǎng)絡(luò)構(gòu)建深度學(xué)習(xí)網(wǎng)絡(luò)模型;之后利用訓(xùn)練集對(duì)深度學(xué)習(xí)網(wǎng)絡(luò)模型進(jìn)行訓(xùn)練,再利用驗(yàn)證集對(duì)訓(xùn)練后的深度學(xué)習(xí)網(wǎng)絡(luò)模型進(jìn)行驗(yàn)證得到驗(yàn)證值;根據(jù)驗(yàn)證值計(jì)算得到平均精確度值MAP,再根據(jù)MAP判斷是否保存深度學(xué)習(xí)網(wǎng)絡(luò)模型;若判斷不保存深度學(xué)習(xí)網(wǎng)絡(luò)模型,則利用訓(xùn)練集繼續(xù)對(duì)深度學(xué)習(xí)網(wǎng)絡(luò)模型進(jìn)行訓(xùn)練;若判斷保存深度學(xué)習(xí)網(wǎng)絡(luò)模型,則保存深度學(xué)習(xí)網(wǎng)絡(luò)模型并利用保存的深度學(xué)習(xí)網(wǎng)絡(luò)模型識(shí)別玻璃。
作為本發(fā)明更進(jìn)一步地改進(jìn),構(gòu)建深度學(xué)習(xí)網(wǎng)絡(luò)模型的具體步驟如下:
采用CNN網(wǎng)絡(luò)對(duì)玻璃圖像進(jìn)行特征提取得到特征圖,再利用1×1的卷積將特征圖的維度由2048降至512;設(shè)置擴(kuò)張殘差塊對(duì)512維度的特征圖進(jìn)行擴(kuò)張卷積處理得到擴(kuò)張后的特征圖;之后根據(jù)Transformer網(wǎng)絡(luò)結(jié)構(gòu)構(gòu)建編碼層和解碼層,該編碼層對(duì)展平后的擴(kuò)張后的特征圖進(jìn)行位置編碼,解碼層對(duì)編碼后的特征圖進(jìn)行解碼;而后設(shè)置兩個(gè)多層感知網(wǎng)絡(luò),將解碼后的特征圖輸入至兩個(gè)多層感知網(wǎng)絡(luò)進(jìn)行分類處理和邊界框的回歸處理得到目標(biāo)檢測(cè)圖和S個(gè)玻璃區(qū)域的邊界框;然后設(shè)置多頭注意力層,先對(duì)目標(biāo)檢測(cè)圖和S個(gè)玻璃區(qū)域的邊界框進(jìn)行編碼,再將編碼后的目標(biāo)檢測(cè)圖和S個(gè)玻璃區(qū)域的邊界框輸入至多頭注意力層獲得注意力特征圖,其中,S為目標(biāo)檢測(cè)圖中玻璃區(qū)域數(shù)目;再設(shè)置掩膜分割卷積頭得到深度學(xué)習(xí)網(wǎng)絡(luò)模型,其中,掩膜分割卷積頭對(duì)注意力特征圖進(jìn)行處理得到玻璃實(shí)例分割圖。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于安徽工業(yè)大學(xué),未經(jīng)安徽工業(yè)大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110446441.4/2.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專利網(wǎng)。
- 基于Transformer+LSTM神經(jīng)網(wǎng)絡(luò)模型的商品銷量預(yù)測(cè)方法及裝置
- 一種基于Transformer模型自然場(chǎng)景文字識(shí)別方法
- 一種深度Transformer級(jí)聯(lián)神經(jīng)網(wǎng)絡(luò)模型壓縮算法
- 點(diǎn)云分割方法、系統(tǒng)、介質(zhì)、計(jì)算機(jī)設(shè)備、終端及應(yīng)用
- 基于Transformer的中文智能對(duì)話方法
- 一種基于改進(jìn)Transformer模型的飛行器故障診斷方法和系統(tǒng)
- 一種基于Transformer模型的機(jī)器翻譯模型優(yōu)化方法
- 基于Transformer和增強(qiáng)交互型MPNN神經(jīng)網(wǎng)絡(luò)的小分子表示學(xué)習(xí)方法
- 基于U-Transformer多層次特征重構(gòu)的異常檢測(cè)方法及系統(tǒng)
- 基于EfficientDet和Transformer的航空?qǐng)D像中的飛機(jī)檢測(cè)方法
- 識(shí)別媒體、識(shí)別媒體的識(shí)別方法、識(shí)別對(duì)象物品以及識(shí)別裝置
- 一種探針卡識(shí)別裝置和方法
- 識(shí)別裝置、識(shí)別方法以及記錄介質(zhì)
- 識(shí)別裝置、識(shí)別系統(tǒng),識(shí)別方法以及存儲(chǔ)介質(zhì)
- 識(shí)別程序、識(shí)別方法以及識(shí)別裝置
- 車載身份識(shí)別方法及系統(tǒng)
- 車載身份識(shí)別方法及系統(tǒng)
- 車載身份識(shí)別方法及系統(tǒng)
- 識(shí)別裝置、識(shí)別方法以及識(shí)別程序
- 識(shí)別裝置、識(shí)別方法及識(shí)別程序





