[發明專利]基于多層次顯式關系選擇的文本指導圖像分割方法有效
| 申請號: | 202010882340.7 | 申請日: | 2020-08-28 |
| 公開(公告)號: | CN112037239B | 公開(公告)日: | 2022-09-13 |
| 發明(設計)人: | 劉宇;李新宇;徐凱平;馮毅強;張海洋 | 申請(專利權)人: | 大連理工大學 |
| 主分類號: | G06V10/26 | 分類號: | G06V10/26;G06V10/22;G06V10/82;G06F40/35;G06N3/04;G06K9/62 |
| 代理公司: | 大連理工大學專利中心 21200 | 代理人: | 梅洪玉 |
| 地址: | 116024 遼*** | 國省代碼: | 遼寧;21 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 多層次 關系 選擇 文本 指導 圖像 分割 方法 | ||
1.基于多層次顯式關系選擇的文本指導圖像分割方法,其特征在于,步驟如下:
(1)特征提取:
對輸入的RGB圖片和自然語言文本進行特征提??;其中RGB圖片采用卷積神經網絡提取圖片中的語義特征,并采用deeplab語義分割模型預訓練參數作為卷積神經網絡的初始參數;對于自然語言文本,使用one-hot方法將每個單詞表示為向量,將得到的向量嵌入成低維向量輸入LSTM長短時記憶網絡,將最終隱藏態作為整個自然語言文本的向量表示;
(2)金字塔池化:
首先將步驟(1)中圖片特征連接自然語言文本向量和根據像素所在空間位置生成的正則空間位置向量生成混合特征;然后采用金字塔池化方法生成具有全局信息的混合特征,具體為:將混合特征復制后按照通道數均分為四部分,將四部分特征圖分別劃分成1×1,2×2,3×3,6×6大小的箱,之后對每個箱進行平均池化,將池化結果連接到原本的特征圖中用以獲得不同大小的全局信息;
(3)空間實體關系捕捉:
為了獲取步驟(2)生成的混合特征中的空間實體關系,通過使用自注意力機制獲取圖片特征中不同特征空間實體之間的關系;對于空間中任意兩個混合空間特征向量,當兩個向量相乘結果越大則代表兩個向量相似度越大,說明兩個向量具有相關性;
自注意力機制的計算向量相似度的過程如公式所示:
MultiHead(Q,K,V)=Concat(head1,…,headh)
where headi=Attention(Qi,Ki,Vi)
其中Qi=MWiQ,Ki=MWiK,Vi=MWiV;M是金字塔池化層輸出的混合具有全局信息的圖片空間特征,WiQ,WiK,WiV分別表示Q,K,V的可學習的嵌入權重向量,其中所有權重互不共享且具有相同的輸出維度,i∈{1,2,…,w×h}表示w寬h長的特征圖中第i個空間向量;dK表示圖片特征的維度數;
(4)多層圖文關系強化:
通過計算步驟(1)的自然語言文本向量與步驟(3)生成的自注意力機制結果Attention(Q,K,V)之間的相似度,以進行圖文關系強化,并通過多次采用不同尺度的自然語言文本向量循環進行圖文關系強化,指導文本圖像分割結果的生成;具體步驟如下:
在上采樣過程中采用雙線性上采樣,同時使用特征提取時卷積網絡生成的特征進行復用;在連接上采樣特征與復用特征后多次對圖文關系進行強化,使用多尺度語言向量對圖片中描述實體的位置進行重新確認;其中通過計算語言文本向量與圖片空間特征向量之間的相似度來對圖片提及實體進行重新定位確認;當兩個向量相似度越大則表示該空間向量是文本語言描述的實體像素可能性越高,權重越高;計算過程如下:
S=ReLU(Wht·[G;Vi-1])
Vi=S[G;Vi-1]
其中,W表示ht的可學習的嵌入權重向量,ht表示語言向量,使用線性變換將語言向量壓縮成與圖片通道數相同維度;G表示提取圖片特征時生成的對應復用特征,[;]表示連接,Vi-1,Vi均表示圖文關系強化方法輸出的特征結果,其中i-1表示上一層圖文關系強化的輸出結果,i表示本層強化的輸出結果,V0是空間實體關系捕捉結果;
使用多次圖文關系強化對結果進行調整;最終將最后一層圖文關系強化生成的特征圖結果通過1×1卷積網絡壓縮成一維特征圖,經過sigmoid激活函數逐像素分類以生成最終分割結果。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于大連理工大學,未經大連理工大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010882340.7/1.html,轉載請聲明來源鉆瓜專利網。





