[發(fā)明專利]基于注意力的重要對(duì)象檢測(cè)方法有效
| 申請(qǐng)?zhí)枺?/td> | 201811594302.0 | 申請(qǐng)日: | 2018-12-25 |
| 公開(公告)號(hào): | CN109711463B | 公開(公告)日: | 2023-04-07 |
| 發(fā)明(設(shè)計(jì))人: | 宋凌云;楊寬;劉均 | 申請(qǐng)(專利權(quán))人: | 廣東順德西安交通大學(xué)研究院 |
| 主分類號(hào): | G06V10/764 | 分類號(hào): | G06V10/764;G06V10/25;G06V10/82;G06N3/0442;G06N3/045;G06N3/0464;G06N3/08 |
| 代理公司: | 西安通大專利代理有限責(zé)任公司 61200 | 代理人: | 徐文權(quán) |
| 地址: | 528399 廣東*** | 國(guó)省代碼: | 廣東;44 |
| 權(quán)利要求書: | 查看更多 | 說(shuō)明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 基于 注意力 重要 對(duì)象 檢測(cè) 方法 | ||
1.基于注意力的重要對(duì)象檢測(cè)方法,其特征在于,包括如下步驟,
步驟1,建立基于注意力的重要對(duì)象檢測(cè)模型;
步驟1.1,編碼;
對(duì)圖像數(shù)據(jù)集中的每一幅圖像通過(guò)編碼器進(jìn)行編碼,編碼為一個(gè)和對(duì)應(yīng)圖像成設(shè)定比例大小的三維的特征圖;
具體的,基于卷積神經(jīng)網(wǎng)絡(luò),對(duì)圖像數(shù)據(jù)集中的每一幅圖像Id進(jìn)行圖像編碼,得到圖像Id的特征圖V=[v1,v2,…,vi,…,vm];其中,1≤d≤D,m是特征圖長(zhǎng)和寬的乘積,D為圖像數(shù)據(jù)集中圖像的數(shù)目;
步驟1.2,解碼;
將特征圖解碼為一句對(duì)應(yīng)圖像的文本描述,將文本描述進(jìn)行分詞得到的所有詞語(yǔ)分別作為標(biāo)簽,對(duì)于每個(gè)標(biāo)簽得到一個(gè)與對(duì)應(yīng)圖像相同尺寸的注意力圖,注意力圖的每個(gè)位置數(shù)值的大小表示對(duì)應(yīng)圖像中每個(gè)位置對(duì)于對(duì)應(yīng)標(biāo)簽的重要程度;
具體地,在T個(gè)時(shí)刻內(nèi),通過(guò)LSTM模型構(gòu)建基于長(zhǎng)短時(shí)記憶單元的循環(huán)神經(jīng)網(wǎng)絡(luò);通過(guò)循環(huán)神經(jīng)網(wǎng)絡(luò)將特征圖解碼為對(duì)應(yīng)圖像的文本描述和關(guān)于文本描述的注意力圖αt=[αt1,αt2,…,αti…,αtm];注意力圖即為特征圖上每個(gè)位置對(duì)于對(duì)應(yīng)標(biāo)簽的注意力權(quán)重;αti表示特征圖V上第i個(gè)位置上的注意力權(quán)重;
在第t個(gè)時(shí)刻,所述的注意力圖可以表示為αt=[αt1,αt2,…,αti…,αtm],由一個(gè)多層感知機(jī)和一個(gè)softmax分類器計(jì)算得來(lái),過(guò)程如下:
αt=softmax(Msst+b),
其中,Mv∈Rk×C,Mh∈Rk×o和Ms∈Rk表示轉(zhuǎn)換矩陣,目的是將V和ht-1映射到一個(gè)共享空間中;b∈R1和bs∈Rk是偏置,o表示向量ht的維度;符號(hào)表示矩陣和向量的加法,即將矩陣的每一列都和向量的對(duì)應(yīng)元素相加;
步驟2,基于注意力的對(duì)象定位對(duì)基于注意力的重要對(duì)象檢測(cè)模型進(jìn)行訓(xùn)練;
步驟2.1,
首先,基于LSTM模型,計(jì)算第t個(gè)時(shí)刻的圖像注意力向量αti表示特征圖V上第i個(gè)位置上的注意力權(quán)重;
其次,基于注意力向量xt,LSTM模型的隱狀態(tài)向量ht和前一個(gè)標(biāo)簽wt-1,根據(jù)如下公式預(yù)測(cè)第t個(gè)時(shí)刻的標(biāo)簽wt,
P(wt|V,wt-1)∝exp(Po(yt-1+Phht+Pzxt))
其中,參數(shù)Po,Ph,和Pz是被隨機(jī)初始化的;隱狀態(tài)向量ht被兩個(gè)獨(dú)立的多層感知機(jī)初始化,所述兩個(gè)獨(dú)立的多層感知機(jī)的輸入是特征圖V中所有向量vi的平均值,yt-1表示圖像前一個(gè)標(biāo)簽的編碼向量;
然后,根據(jù)當(dāng)前時(shí)刻即第t個(gè)時(shí)刻在特征圖中每個(gè)位置的注意力權(quán)重αti,生成兩個(gè)尺寸的矩形框,表示和標(biāo)簽wt描述的對(duì)象關(guān)聯(lián)性最大的兩個(gè)區(qū)域;
步驟2.2,利用感興趣區(qū)域池化抽取矩形框區(qū)域的特征,將得到的特征向量并送入全連接層和softmax分類器,計(jì)算所選矩形框區(qū)域在各個(gè)標(biāo)簽上的概率分布;選取概率值最大的標(biāo)簽作為矩形框區(qū)域?qū)?yīng)的標(biāo)簽;
步驟2.3,重復(fù)步驟2.1和2.2處理所有的注意力圖后,利用所得概率分布進(jìn)行基于Noisy-Or的多示例多標(biāo)簽分類,計(jì)算整個(gè)對(duì)應(yīng)圖像在各個(gè)標(biāo)簽上的預(yù)測(cè)概率值基于獲得的預(yù)測(cè)概率使用平方差損失函數(shù)計(jì)算基于注意力的重要對(duì)象檢測(cè)模型的預(yù)測(cè)概率值與真實(shí)概率值之間的誤差,利用反向傳播算法訓(xùn)練基于注意力的重要對(duì)象檢測(cè)模型的參數(shù);
步驟3,利用完成訓(xùn)練的基于注意力的重要對(duì)象檢測(cè)模型對(duì)圖像的重要對(duì)象進(jìn)行檢測(cè)。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于廣東順德西安交通大學(xué)研究院,未經(jīng)廣東順德西安交通大學(xué)研究院許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201811594302.0/1.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專利網(wǎng)。
- 基于粒子濾波視覺注意力模型的運(yùn)動(dòng)目標(biāo)檢測(cè)方法
- 一種評(píng)測(cè)注意力狀態(tài)的方法及裝置
- 注意力測(cè)評(píng)方法、系統(tǒng)及計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)
- 兒童注意力評(píng)估系統(tǒng)及其方法
- 一種注意力檢測(cè)方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)
- 一種注意力識(shí)別方法和裝置
- 一種可靠的用戶注意力監(jiān)測(cè)估計(jì)表示模型
- 注意力特征圖獲取方法及裝置、目標(biāo)檢測(cè)的方法及裝置
- 基于通道增強(qiáng)的雙注意力生成對(duì)抗網(wǎng)絡(luò)及圖像生成方法
- 一種文本情感分析模型的優(yōu)化方法及裝置
- 對(duì)象選擇裝置、對(duì)象選擇程序及對(duì)象選擇方法
- 對(duì)象顯示裝置、對(duì)象顯示系統(tǒng)以及對(duì)象顯示方法
- 對(duì)象顯示裝置、對(duì)象顯示方法和對(duì)象顯示程序
- 對(duì)象顯示裝置、對(duì)象顯示方法和對(duì)象顯示程序
- 對(duì)象顯示裝置、對(duì)象顯示方法和對(duì)象顯示程序
- 對(duì)象分析方法、對(duì)象分析設(shè)備及對(duì)象分析系統(tǒng)
- 對(duì)象索引方法、對(duì)象搜索方法及對(duì)象索引系統(tǒng)
- 對(duì)象分類方法和對(duì)象分類設(shè)備
- 對(duì)象庫(kù)中的對(duì)象簽名
- 對(duì)象追蹤方法、對(duì)象追蹤系統(tǒng)以及對(duì)象追蹤程序





