[發(fā)明專利]基于注意力機制的結(jié)合自然語言的圖像目標定位方法在審
| 申請?zhí)枺?/td> | 202010031276.1 | 申請日: | 2020-01-13 |
| 公開(公告)號: | CN111259768A | 公開(公告)日: | 2020-06-09 |
| 發(fā)明(設計)人: | 覃征;葉樹雄;王國龍;徐凱平;黃凱 | 申請(專利權(quán))人: | 清華大學 |
| 主分類號: | G06K9/00 | 分類號: | G06K9/00;G06K9/62;G06K9/34;G06F40/284;G06N3/04;G06N3/08 |
| 代理公司: | 西安智大知識產(chǎn)權(quán)代理事務所 61215 | 代理人: | 段俊濤 |
| 地址: | 100084 北京市海淀區(qū)1*** | 國省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 基于 注意力 機制 結(jié)合 自然語言 圖像 目標 定位 方法 | ||
本發(fā)明公開了基于注意力機制的結(jié)合自然語言的圖像目標定位方法,該方法在注意力回歸模型的基礎上改進得到,方法的輸入包括待檢測圖像以及待檢測目標的自然語言描述短語,首先通過卷積神經(jīng)網(wǎng)絡抽取圖像的特征,通過詞向量編碼方法將查詢語句中的每個單詞編碼為詞向量表示,通過雙向LSTM模型對詞向量表示進行進一步的特征抽象,得到查詢語句的語義特征,再結(jié)合圖像的特征和查詢語句的語義特征計算圖像的注意力圖,然后基于圖像的注意力圖預測目標位置,同時根據(jù)均方誤差和IoU誤差訓練模型。本發(fā)明可以更高效的將查詢語言的特征和圖像特征融合在一起,實驗結(jié)果表明,本發(fā)明提出的方法的定位精度要明顯高于原注意力回歸模型,達到了比較前沿的水平。
技術(shù)領(lǐng)域
本發(fā)明屬于圖像分析識別技術(shù)領(lǐng)域,特別涉及基于注意力機制的結(jié)合自然語言的圖像目標定位方法。
背景技術(shù)
傳統(tǒng)的圖像目標檢測的識別結(jié)果往往是一些事先定義好的某個類別的物體,比如人臉、車等,而一幅圖像中包含的內(nèi)容遠遠不止一些相互獨立的物體,其中還包含了物體的屬性、物體的空間關(guān)系、物體的邏輯關(guān)系等信息,這些信息不能夠只用一些類標簽進行描述,而需要使用自然語言進行描述,這也是更符合人類思維的描述方式,例如對于一張有好幾輛卡車的圖片,用戶可以輸入“左邊紅色的卡車”而不是類標簽“卡車”來找到更精細的目標。本文將這個問題稱為基于自然語言的圖像目標定位問題,即以自然語言來描述圖像中的目標,系統(tǒng)在圖像中找出目標位置。
基于自然語言的圖像目標定位問題是目前研究的一個熱點問題,如何將自然語言描述的目標語義信息融合到圖像特征中是研究的難點問題。隨著深度學習的發(fā)展,近幾年提出了很多基于深度神經(jīng)網(wǎng)絡的方法來解決該問題,這些方法可以分為兩大類,一類是基于目標備選集的方法,這類方法先產(chǎn)生目標備選集,然后基于備選集進行篩選得到目標位置,另一類是非基于目標備選集的方法,這類方法直接產(chǎn)生目標位置,不需要事先生成目標備選集。
然而,當前基于自然語言的圖像目標檢測方法精度仍然較低,基于類別的圖像目標檢測方法雖然精度較高,但無法精準、系統(tǒng)、個性化的定位目標。
發(fā)明內(nèi)容
為了克服上述現(xiàn)有技術(shù)的缺點,本發(fā)明的目的在于提供基于注意力機制的結(jié)合自然語言的圖像目標定位方法,該方法在注意力回歸模型的基礎上改進得到,具體改進了原注意力回歸模型中計算圖像注意力圖和計算目標位置的方法,在降低原方法模型復雜度的同時顯著提升了原方法的定位精度。
為了實現(xiàn)上述目的,本發(fā)明采用的技術(shù)方案是:
基于注意力機制的結(jié)合自然語言的圖像目標定位方法,其特征在于,包括如下步驟:
(1)通過卷積神經(jīng)網(wǎng)絡抽取圖像的特征;
(2)通過詞向量編碼方法將查詢語句中的每個單詞編碼為詞向量表示;
(3)通過雙向LSTM模型對詞向量表示進行進一步的特征抽象,得到查詢語句的語義特征;
(4)結(jié)合圖像的特征和查詢語句的語義特征計算圖像的注意力圖;
(5)基于圖像的注意力圖預測目標位置;
(6)根據(jù)均方誤差和IoU誤差訓練模型。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于清華大學,未經(jīng)清華大學許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010031276.1/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 同類專利
- 專利分類





