[發明專利]一種基于神經網絡及圖像關注點的圖像描述生成方法有效
| 申請號: | 201611169242.9 | 申請日: | 2016-12-16 |
| 公開(公告)號: | CN106777125B | 公開(公告)日: | 2020-10-23 |
| 發明(設計)人: | 胡海峰;楊梁;王騰;張俊軒;王偉軒 | 申請(專利權)人: | 廣東順德中山大學卡內基梅隆大學國際聯合研究院;中山大學 |
| 主分類號: | G06K9/62 | 分類號: | G06K9/62;G06K9/46;G06N3/04;G06N3/08 |
| 代理公司: | 廣州粵高專利商標代理有限公司 44102 | 代理人: | 林麗明 |
| 地址: | 528300 廣東省佛山市順德區大良*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 神經網絡 圖像 關注點 描述 生成 方法 | ||
1.一種基于神經網絡及圖像關注點的圖像描述生成方法,其特征在于,包括以下步驟:
S1:構建每一時刻幀t的圖像的多模態模型:
1)訓練集中已標注圖像的文本描述信息分成單個字集,用one-hot向量表示對應字,作為模型的文本模塊的輸入,并經過兩個嵌入層投影至一個稠密字表達空間,成為具有語義的字表達向量Wt;
2)字表達向量用于循環卷積神經網絡RNN某時刻幀t的輸入,進行循環卷積神經網絡RNN計算,該時刻幀t的循環層激活Rt是由當前時刻幀的字表達向量和之前時刻幀t-1的循環層Rt-1共同決定的;
3)已標注圖像經過一個卷積神經網絡CNN,并提取圖像的L個顯著特征;
4)圖像的特征作為LSTM的輸入,LSTM中的隱藏層信息采取一種決策‘soft’關注機制可以獲得指定區域特征在全局圖像的重要程度,其重要程度和其特征通過求期望可以算出包含區域關注信息的上下文向量;
5)將以上的字表達向量、循環層信息、圖像特征和上下文向量通過轉換矩陣投影至同一維度的多模態空間上并直接元素相加,再用元素比例雙曲線正切函數激活,最后通過softmax層得到下一字的概率分布;
S2:對構建的模型進行訓練:整個模型的損失函數是對應圖片的文本標注的混亂度,其等價于字集的平均對數似然值,對其使用標準梯度下降算法,通過反向傳播算法學習模型參數。
2.根據權利要求1所述的基于神經網絡及圖像關注點的圖像描述生成方法,其特征在于,所述步驟1)中,用one-hot碼對子集編碼,相應位置置1,代表某一特定字,其余置0,通過兩個嵌入層可以將one-hot碼投影至一個稠密字表達空間,其能將字的句法和語義含義編碼出來,語義相關的字可以通過計算兩個稠密字向量的歐式距離找出,并且隨機初始化字嵌入層有更好的效果。
3.根據權利要求2所述的基于神經網絡及圖像關注點的圖像描述生成方法,其特征在于,所述步驟2)中,對于每一時刻幀的循環層Rt激活,是由當前時刻幀的字表達向量Wt和之前時刻幀t-1的循環層Rt-1共同決定的,首先將Rt-1轉換到和Wt相同向量空間上,并將它們相加:
Rt=f1(Ur·Rt-1+Wt)
其中,f1設置為ReLU,Ur是投影轉換矩陣。
4.根據權利要求3所述的基于神經網絡及圖像關注點的圖像描述生成方法,其特征在于,所述步驟3)中,使用了AlexNet的7th層的激活狀態,從低階卷積層中提取,從所有的特征向量中針對性地選取特征向量子集。
5.根據權利要求4所述的基于神經網絡及圖像關注點的圖像描述生成方法,其特征在于,所述步驟4)中,通過LSTM中隱藏層的信息,借助關注模型,得出相關關注區域的權重值,并用決策軟機制計算出帶有區域關注信息的上下文向量:
Eti=fatt(ai,ht-1)
其中fatt是基于先前隱藏狀態ht-1的多層感知機,ai是圖像i區域的特征向量,αti是t時刻幀和圖像區域i關注度的權重值:
其中zt是t時刻幀的上下文相關向量,是決策軟機制,這里定義成如下式:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于廣東順德中山大學卡內基梅隆大學國際聯合研究院;中山大學,未經廣東順德中山大學卡內基梅隆大學國際聯合研究院;中山大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201611169242.9/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:語義認知方法、裝置及系統
- 下一篇:一種支持異構時序數據庫的數據在線遷移方法
- 彩色圖像和單色圖像的圖像處理
- 圖像編碼/圖像解碼方法以及圖像編碼/圖像解碼裝置
- 圖像處理裝置、圖像形成裝置、圖像讀取裝置、圖像處理方法
- 圖像解密方法、圖像加密方法、圖像解密裝置、圖像加密裝置、圖像解密程序以及圖像加密程序
- 圖像解密方法、圖像加密方法、圖像解密裝置、圖像加密裝置、圖像解密程序以及圖像加密程序
- 圖像編碼方法、圖像解碼方法、圖像編碼裝置、圖像解碼裝置、圖像編碼程序以及圖像解碼程序
- 圖像編碼方法、圖像解碼方法、圖像編碼裝置、圖像解碼裝置、圖像編碼程序、以及圖像解碼程序
- 圖像形成設備、圖像形成系統和圖像形成方法
- 圖像編碼裝置、圖像編碼方法、圖像編碼程序、圖像解碼裝置、圖像解碼方法及圖像解碼程序
- 圖像編碼裝置、圖像編碼方法、圖像編碼程序、圖像解碼裝置、圖像解碼方法及圖像解碼程序





