[發明專利]一種圖像語義細粒度的描述生成方法有效
| 申請號: | 202011387365.6 | 申請日: | 2020-12-01 |
| 公開(公告)號: | CN112528989B | 公開(公告)日: | 2022-10-18 |
| 發明(設計)人: | 李紅波;湯躍;吳渝 | 申請(專利權)人: | 重慶郵電大學 |
| 主分類號: | G06V10/25 | 分類號: | G06V10/25;G06V10/764;G06V10/82;G06N3/04;G06N3/08 |
| 代理公司: | 重慶市恒信知識產權代理有限公司 50102 | 代理人: | 陳棟梁 |
| 地址: | 400065 重*** | 國省代碼: | 重慶;50 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 圖像 語義 細粒度 描述 生成 方法 | ||
1.一種圖像語義細粒度的描述生成方法,其特征在于,包括以下步驟:
步驟1:獲取開源并且已經標注描述的圖像數據集,根據數據集的大小,劃分訓練集、驗證集和測試集;抓取網絡上公開的文本數據,構建語料庫;
步驟2:對步驟1的圖像數據和文本數據進行綁定、篩選、轉格式和向量化的預處理;
步驟3:引入注意力機制的網絡模型對圖像進行特征提取,引入注意力機制的網絡模型自動選定圖像中感興趣的提議區域,并提取此區域的圖像特征;
步驟4:根據步驟3提取出的感興趣區域圖像特征作為反饋,對全局特征進一步篩選,提取出語義補充區域的特征;
步驟5:將步驟3提取出的感興趣區域的特征輸入到第一個長短時記憶網絡,生成粗糙的圖像語義描述;
步驟6:將步驟4提取出的語義補充區域的特征和步驟5已生成的圖像語義描述輸入到第二個長短時記憶網絡(LSTM),LSTM根據補充區域的特征細化圖像語義的描述,最終得到圖像語義細粒度的描述; 經過訓練,輸入一張圖片就能對圖片進行理解,輸出細粒度的圖像描述;
所述步驟3引入注意力機制的網絡模型對圖像進行特征提取,引入注意力機制的網絡模型自動選定圖像中感興趣的提議區域,并提取此區域的圖像特征,具體包括:
使用Faster-RCNN網絡提取圖像感興趣區域特征向量,輸入的圖像經過卷積神經網絡CNN提取全局特征,再輸入到區域提議網絡RPN提取圖像感興趣區域特征,得到的圖像感興趣區域特征向量,每一維代表了圖像特征,維度為2048;對感興趣區域進一步分組,將感興趣區域設為集合B,將提取的物體特征結點信息設為集合N,將邊界框設為R,構建特征信息圖G={B,N,R},將構建的特征信息圖和編碼的詞向量輸入到圖神經網絡GNN,候選區域特征的特征向量為fib,物體特征向量為fin,邊界框特征向量為fir,在每個時間步驟t中,物體結點和相鄰邊界框的集合為Ni,物體結點和相鄰邊界框結點進行聚合:
其中表示隱藏狀態;
根據單詞的詞性,抽取不同語義層的特征信息,將名詞詞性的單詞與B集合綁定,同時也要與N集合綁定,將動詞詞性的單詞與集合R進行綁定,將特征信息fi和詞向量vc在全連接層上綁定進行轉換,轉換后的信息表示為Ic
所述步驟4具體實現方法為:將步驟3提取的感興趣區域特征作為輸入,這些感興趣區域特征經過雙線性插值進行縮放,得到同樣的維度,經過縮放后的特征為f,特征經過ReLu激活函數之后,生成逆向掩碼mask:
其中σ表示sigmoid激活函數;
逆向掩碼mask結合全局特征fall,設置逆向權重ωre,提取出語義補充區域的特征fed
fed=ωre*mask*fall。
2.根據權利要求1所述的一種圖像語義細粒度的描述生成方法,其特征在于,所述步驟1具體采用的數據集如下:
a:Flickr30k數據集,經過選取和切分,包含29000張訓練圖片,1000張驗證圖片,1000張測試圖片;
b:抓取100多萬條英文句子組成圖像描述語料庫。
3.根據權利要求1所述的一種圖像語義細粒度的描述生成方法,其特征在于,所述步驟2對步驟1的圖像數據和文本數據進行預處理,具體包括步驟:
將圖像數據調整為相同的尺寸;去除語料庫的符號、數字和特殊字符,將所有的文本數據轉換為預定義的json格式,設置最大的單詞頻率,將出現次數超過設置的單詞頻率的單詞,添加到詞典中;將出現次數低于設置的單詞頻率的單詞,使用預設符號代替,構建出詞典;根據詞典的大小,通過Word2Vec編碼方法對單詞進行詞向量化。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于重慶郵電大學,未經重慶郵電大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011387365.6/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種股骨髓內復位裝置
- 下一篇:防護性能較好的超聲檢測設備攜帶箱及其使用方法
- 彩色圖像和單色圖像的圖像處理
- 圖像編碼/圖像解碼方法以及圖像編碼/圖像解碼裝置
- 圖像處理裝置、圖像形成裝置、圖像讀取裝置、圖像處理方法
- 圖像解密方法、圖像加密方法、圖像解密裝置、圖像加密裝置、圖像解密程序以及圖像加密程序
- 圖像解密方法、圖像加密方法、圖像解密裝置、圖像加密裝置、圖像解密程序以及圖像加密程序
- 圖像編碼方法、圖像解碼方法、圖像編碼裝置、圖像解碼裝置、圖像編碼程序以及圖像解碼程序
- 圖像編碼方法、圖像解碼方法、圖像編碼裝置、圖像解碼裝置、圖像編碼程序、以及圖像解碼程序
- 圖像形成設備、圖像形成系統和圖像形成方法
- 圖像編碼裝置、圖像編碼方法、圖像編碼程序、圖像解碼裝置、圖像解碼方法及圖像解碼程序
- 圖像編碼裝置、圖像編碼方法、圖像編碼程序、圖像解碼裝置、圖像解碼方法及圖像解碼程序





