[發明專利]基于跨模態文本檢索注意力機制的文本指導圖像分割方法在審
| 申請號: | 202110952433.7 | 申請日: | 2021-08-19 |
| 公開(公告)號: | CN113657400A | 公開(公告)日: | 2021-11-16 |
| 發明(設計)人: | 劉宇;陳鵬;單世民;李新宇;徐凱平 | 申請(專利權)人: | 大連理工大學 |
| 主分類號: | G06K9/34 | 分類號: | G06K9/34;G06K9/46;G06K9/62;G06N3/04;G06N3/08 |
| 代理公司: | 遼寧鴻文知識產權代理有限公司 21102 | 代理人: | 楊植 |
| 地址: | 116024*** | 國省代碼: | 遼寧;21 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 跨模態 文本 檢索 注意力 機制 指導 圖像 分割 方法 | ||
一種基于跨模態文本檢索注意力機制的文本指導圖像分割方法,該方法將文本作為查詢向量,多模態特征作為檢索空間,自適應關注多模態特征空間中與文本相似區域,定位目標物體。該方法包括:特征提取、圖文信息深度融合、深層次關系捕捉和多層級特征混合。采用卷積網絡和長短時記憶網絡提取視覺、語言特征;使用哈達瑪積將視覺、語言特征信息深度融合;采用基于文本查詢的注意力機制獲取圖片場景中與文本描述相似區域,最后將多個層級的特征混合分割目標物體。該方法能夠在復雜場景下有效提高定位目標的準確度,實現區域的精確分割。
技術領域
本發明屬于計算機視覺與自然語言處理的交叉技術領域,涉及一種基于跨模態文本檢索注意力機制的文本指導圖像分割方法。
背景技術
文本指導圖像分割任務的目標是根據給定的自然語言定位和分割出文本所描述的物體或區域。它不僅可以識別固定類別,同時能夠理解表達豐富多變的自然語言。相比于普通的圖像分割任務,該任務能夠建立起人類與計算機直接快速溝通的橋梁,在實際應用中更加符合直觀需求,可方便應用在人機交互、圖片編輯等日常生活中,具有廣泛的商用價值及深遠的研究意義。文本指導圖像分割任務要求計算機對所觀察場景下物體的認識不僅停留在“認知”的層面,同時要對物體的種類、大小、形狀等屬性以及與周邊物體之間的相關性正確“理解”。需要將文本與圖像的特征信息映射統一,根據語言中提及的物體關系對圖片中多實體關系進行推理正確定位,并且需要對定位區域精確分割。
現階段的文本指導圖像分割方法大多采用將文本特征與圖像視覺特征直接相加或者級聯的簡單方式整合多模態信息逐像素分割預測結果。然而這種簡單的融合方式低估了文本與圖像信息交互的重要性,忽略了文本對于圖像信息的引導決策,同時缺乏模型的可解釋性。很大程度影響了模型定位目標的準確性,導致模型預測出錯誤的物體所在區域。
發明內容
為了克服上述現有技術的缺點,本發明提供了一個基于跨模態文本檢索注意力機制的文本指導圖像分割方法,通過使用自然語言文本顯式地檢索多模態特征空間,最終指導分割結果的生成。該方法在復雜文本描述或具有多個同類別物體的場景下,能有效的提高分割結果地準確性。
為了實現上述目的,本發明采用的技術方案是:
基于跨模態文本檢索注意力機制的文本指導圖像分割方法,其包括步驟:
(1)特征提取:
對輸入自然語言文本和RGB圖片進行特征提取。
對于自然語言文本,使用one-hot方法將每個單詞表示為向量,將該向量嵌入成低維向量后輸入LSTM長短時記憶網絡,將最終隱藏態作為整個自然語言文本的文本表示向量Fl。
對于RGB圖片,采用ResNet-101卷積神經網絡的Res3,Res4,Res5層提取圖片特征作為視覺特征在三層特征圖使用相同處理步驟,為方便表示視覺特征統稱為Fv。其中卷積神經網絡采用DeepLab語義分割模型預訓練參數作為初始參數,使用DeepLab預訓練參數能有效的減少網絡訓練時間,提高網絡的泛化能力。之后將每個視覺特征向量的位置坐標嵌入視覺特征Fv中,具體過程:對于長寬為w,h的視覺特征圖,其中w=h=40。以視覺特征圖的中心位置作為坐標原點(0,0),特征圖左上角位置坐標記為(-1,-1),右下角位置坐標記為(+1,+1),特征圖中第i行j列的像素空間位置坐標為
最后將視覺特征Fv與文本表示向量Fl級聯后映射至500維的文本圖像多模態特征空間M。
(2)圖文信息深度融合:
將步驟(1)中生成的文本表示向量Fl與多模態特征空間M中的每個位置做哈達瑪乘積實現對二者多模態信息的建模,實現文本與圖像信息深度融合至統一的多模態混合特征空間M′,有利于后面模塊對于目標物體所在區域的正確定位。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于大連理工大學,未經大連理工大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110952433.7/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種汽車后保尾管的檢測裝置
- 下一篇:一種致密構件的制備方法





