[發明專利]基于注意力機制的結合自然語言的圖像目標定位方法在審
| 申請號: | 202010031276.1 | 申請日: | 2020-01-13 |
| 公開(公告)號: | CN111259768A | 公開(公告)日: | 2020-06-09 |
| 發明(設計)人: | 覃征;葉樹雄;王國龍;徐凱平;黃凱 | 申請(專利權)人: | 清華大學 |
| 主分類號: | G06K9/00 | 分類號: | G06K9/00;G06K9/62;G06K9/34;G06F40/284;G06N3/04;G06N3/08 |
| 代理公司: | 西安智大知識產權代理事務所 61215 | 代理人: | 段俊濤 |
| 地址: | 100084 北京市海淀區1*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 注意力 機制 結合 自然語言 圖像 目標 定位 方法 | ||
1.基于注意力機制的結合自然語言的圖像目標定位方法,其特征在于,包括如下步驟:
(1)通過卷積神經網絡抽取圖像的特征;
(2)通過詞向量編碼方法將查詢語句中的每個單詞編碼為詞向量表示;
(3)通過雙向LSTM模型對詞向量表示進行進一步的特征抽象,得到查詢語句的語義特征;
(4)結合圖像的特征和查詢語句的語義特征計算圖像的注意力圖;
(5)基于圖像的注意力圖預測目標位置;
(6)根據均方誤差和IoU誤差訓練模型。
2.根據權利要求1所述基于注意力機制的結合自然語言的圖像目標定位方法,其特征在于,所述步驟(1)中使用卷積神經網絡VGG16來計算圖像特征,輸入圖像被統一縮放為224*224大小,使用VGG16最后一個卷積層輸出的特征圖作為圖像的高階特征,該特征圖大小為14*14*512,其中512是輸出通道數,該特征圖一共有196個點,每個點對應了原圖中的一個區域,每個區域的視覺特征都被表示為了一個512維的向量,表示為Vimage=(Vr1,Vr2,…Vri,…,Vr196),其中Vri表示第r張圖第i個區域的視覺特征向量。
3.根據權利要求1所述基于注意力機制的結合自然語言的圖像目標定位方法,其特征在于,所述步驟(2)中首先建立一個詞典D,利用詞典D將每個單詞轉化為one-hot向量表示,該向量的維度大小與詞典大小相同,其中只有一個值為1,其他值為0,值為1的元素所在的位置就是這個單詞在詞典中的索引位置,然后再建立一個Z行M列的詞向量矩陣W,其中Z是詞典D的大小,M是詞向量的維度,矩陣W的每一行對應了詞典中單詞的詞向量,將單詞的one-hot向量和矩陣W進行矩陣乘法得到這個單詞的詞向量表示C,該操作本質上就是將矩陣W的某一行取出來:C=XW,初始化詞向量矩陣W時,從預訓練好的詞向量模型GloVe 840B中選出詞典中的每個單詞對應的詞向量來初始化W中對應位置的詞向量。
4.根據權利要求1所述基于注意力機制的結合自然語言的圖像目標定位方法,其特征在于,所述步驟(3)中將步驟(2)中得到的詞向量序列輸入到雙向LSTM中計算查詢語句的語義特征,雙向LSTM由兩個LSTM構成,前向的LSTM以正序的詞向量序列為輸入,反向LSTM以逆序的詞向量序列為輸入,雙向LSTM模型的隱狀態由前向LSTM模型的隱狀態和反向LSTM模型的隱狀態通過一個單層的神經網絡的全連接層集合得到,得到雙向LSTM的隱狀態后,將所有時間步的隱狀態取平均即得到查詢語句的語義特征向量:Vtext=1/T(h1+h2+...+hi+...+hT),其中hi表示表示查詢語句第i個單詞的隱狀態,T表示輸入查詢語句的單詞個數。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于清華大學,未經清華大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010031276.1/1.html,轉載請聲明來源鉆瓜專利網。





