[發(fā)明專利]基于多層次顯式關(guān)系選擇的文本指導(dǎo)圖像分割方法有效
| 申請?zhí)枺?/td> | 202010882340.7 | 申請日: | 2020-08-28 |
| 公開(公告)號: | CN112037239B | 公開(公告)日: | 2022-09-13 |
| 發(fā)明(設(shè)計)人: | 劉宇;李新宇;徐凱平;馮毅強;張海洋 | 申請(專利權(quán))人: | 大連理工大學(xué) |
| 主分類號: | G06V10/26 | 分類號: | G06V10/26;G06V10/22;G06V10/82;G06F40/35;G06N3/04;G06K9/62 |
| 代理公司: | 大連理工大學(xué)專利中心 21200 | 代理人: | 梅洪玉 |
| 地址: | 116024 遼*** | 國省代碼: | 遼寧;21 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 基于 多層次 關(guān)系 選擇 文本 指導(dǎo) 圖像 分割 方法 | ||
本發(fā)明提供一種基于多層次顯式關(guān)系選擇的文本指導(dǎo)圖像分割方法,從圖像語義中的實體關(guān)系,多尺度文本等多角度多層次指導(dǎo)圖像分割,使得該方法對于豐富復(fù)雜的語言描述也可得到準(zhǔn)確的結(jié)果。該方法主要包括:特征提取、金字塔池化、空間實體關(guān)系捕捉和多層圖文關(guān)系強化。使用卷積神經(jīng)網(wǎng)絡(luò)提取圖片中的語義特征;通過增加不同大小箱的金字塔池化方法得到具有全局信息的圖片特征;再通過自注意力機制獲取圖片空間上的實體與實體之間的關(guān)系,當(dāng)句子中含有多個實體描述時,能夠有效提高實體定位的準(zhǔn)確性;最后通過不同尺度的自然語言文本向量循環(huán)增強圖像與語言之間的聯(lián)系,對前一步結(jié)果進行多次矯正,得到更具魯棒性結(jié)果。
技術(shù)領(lǐng)域
本發(fā)明屬于計算機視覺與自然語言處理的交叉技術(shù)領(lǐng)域,涉及基于多層次顯式關(guān)系選擇的文本指導(dǎo)圖像分割方法,以解決復(fù)雜、具有多個描述實體的自然語言文本為出發(fā)點。
背景技術(shù)
隨著人工智能時代的到來,人類與計算機、智能機器之間的交互需求越來越多。如何讓機器能夠理解復(fù)雜的自然語言、與人類有相同視角,觀察到人類觀察的世界、按照人類意圖做出相應(yīng)操作的問題已經(jīng)成為業(yè)界關(guān)注的一大熱門話題。圖像分割是計算機視覺的傳統(tǒng)研究領(lǐng)域卻一直備受人們關(guān)注,近年來在自動駕駛、人機交互、虛擬現(xiàn)實、醫(yī)學(xué)圖像等各個領(lǐng)域都有著廣泛應(yīng)用,因此將自然語言與圖像處理相結(jié)合能夠促進人機交互的發(fā)展,實現(xiàn)機器與人類的無障礙溝通。
基于文本的圖像分割是分割任務(wù)中比較貼合實際應(yīng)用需求的一個研究分支,它能夠根據(jù)自然語言文本的描述分割圖片中的指定區(qū)域。相比于普通的分割任務(wù),它需要理解表達豐富多變的自然語言、根據(jù)語言中提及的物體關(guān)系對圖片中多實體關(guān)系進行推理正確定位,并且需要對定位區(qū)域精確分割。現(xiàn)有的基于文本的圖像分割方法大多將語言特征與圖像特征連接進行逐像素分類預(yù)測最終結(jié)果,缺乏顯式地使用語言指導(dǎo)分割結(jié)果的生成,同時缺少對圖像中實體與實體之間的關(guān)系捕捉及推理過程,容易導(dǎo)致預(yù)測結(jié)果分割區(qū)域不準(zhǔn)確,邊界輪廓不精確等問題。
發(fā)明內(nèi)容
為了克服上述現(xiàn)有技術(shù)的缺點,本發(fā)明提供一個基于多層次顯式關(guān)系選擇的文本指導(dǎo)圖像分割方法,通過捕捉圖片中實體與實體之間的關(guān)系,顯式地使用自然語言文本對全局信息進行推理,最終指導(dǎo)分割結(jié)果的生成。該方法能夠應(yīng)對復(fù)雜具有多個實體描述的自然語言文本,對于復(fù)雜的、具有多個實體描述的自然語言文本輸入前提下,能有效的提高分割結(jié)果地準(zhǔn)確性。
為了實現(xiàn)上述目的,本發(fā)明采用的技術(shù)方案是:
基于多層次顯式關(guān)系選擇的文本指導(dǎo)圖像分割方法,其包括步驟:
(1)特征提取:
對輸入的RGB圖片和自然語言文本進行特征提取。其中RGB圖片采用卷積神經(jīng)網(wǎng)絡(luò)提取圖片中的語義特征,由于該方法屬于圖像分割分支,因此采用deeplab語義分割模型預(yù)訓(xùn)練參數(shù)作為卷積神經(jīng)網(wǎng)絡(luò)的初始參數(shù),使用deeplab預(yù)訓(xùn)練參數(shù)能有效的減少網(wǎng)絡(luò)訓(xùn)練時間,提高網(wǎng)絡(luò)的泛化能力。對于自然語言文本,使用one-hot方法將每個單詞表示為向量,將該向量嵌入成低維向量輸入LSTM長短時記憶網(wǎng)絡(luò),將最終隱藏態(tài)作為整個自然語言文本的向量表示,該過程是將低秩詞向量輸入LSTM經(jīng)過多次循環(huán)最終得到的隱藏態(tài)作為整句話的向量表示。
(2)金字塔池化:
由于基于文本的圖像分割任務(wù)需要根據(jù)語言對圖像全局進行推理,圖像特征中需要全局信息。因此采用金字塔池化方法來增加全局信息。首先將步驟(1)中圖片特征連接自然語言文本向量和根據(jù)像素所在空間位置生成的正則空間位置向量生成混合特征,然后采用金字塔池化方法生成具有全局信息的混合特征。
具體來說,金字塔池化將混合特征復(fù)制后按照通道數(shù)均分為四部分,將四部分特征圖分別劃分成1×1,2×2,3×3,6×6大小的箱,之后對每個箱進行平均池化,將池化結(jié)果連接到原本的特征圖中用以獲得不同大小的全局信息。
(3)空間實體關(guān)系捕捉:
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于大連理工大學(xué),未經(jīng)大連理工大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010882340.7/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 利用商用支撐結(jié)構(gòu)所構(gòu)筑的多層次水產(chǎn)養(yǎng)殖系統(tǒng)
- 多層次微粒體及其抗眩膜
- 一種自動生成網(wǎng)格與著色器多層次細節(jié)的方法
- 一種高靈敏度電容型柔性壓力傳感器
- 一種基于多組學(xué)數(shù)據(jù)整合的植物全基因組多層次生物網(wǎng)絡(luò)重建方法
- 基于多層次深度特征的鐵軌異物檢測方法與裝置
- 多源故障檢測與診斷方法和裝置
- 識別待檢測樣本中異常細胞的方法、裝置和存儲介質(zhì)
- 云平臺監(jiān)控方法、裝置、計算機設(shè)備和存儲介質(zhì)
- 用于產(chǎn)生多層次字符圖形的方法和裝置以及記錄介質(zhì)





