[發(fā)明專利]一種基于自適應(yīng)聚類學(xué)習(xí)的視覺關(guān)系檢測方法有效
| 申請?zhí)枺?/td> | 201911341230.3 | 申請日: | 2019-12-23 |
| 公開(公告)號: | CN111125406B | 公開(公告)日: | 2023-08-04 |
| 發(fā)明(設(shè)計)人: | 劉安安;王彥暉;徐寧;聶為之 | 申請(專利權(quán))人: | 天津大學(xué) |
| 主分類號: | G06F16/55 | 分類號: | G06F16/55;G06F16/583;G06V10/762 |
| 代理公司: | 天津市北洋有限責(zé)任專利代理事務(wù)所 12201 | 代理人: | 李林娟 |
| 地址: | 300072*** | 國省代碼: | 天津;12 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 自適應(yīng) 學(xué)習(xí) 視覺 關(guān)系 檢測 方法 | ||
本發(fā)明公開了一種基于自適應(yīng)聚類學(xué)習(xí)的視覺關(guān)系檢測方法,包括:從輸入圖像中檢測視覺實體并通過上下文信息傳遞機制識別視覺實體,獲得視覺實體上下文表征;將成對視覺實體上下文表征統(tǒng)一低維嵌入聯(lián)合子空間中,獲取視覺關(guān)系共享表示特征;將成對視覺實體上下文表征分別低維嵌入多個不同聚類子空間中,獲取多個初步視覺關(guān)系增強表示特征;通過聚類驅(qū)動的注意力機制對不同聚類子空間的多個初步視覺關(guān)系增強表示特征進(jìn)行正則化;將視覺關(guān)系共享表示特征,正則化后的視覺關(guān)系增強表示特征與視覺關(guān)系謂詞類別標(biāo)簽的先驗條件分布融合,對視覺關(guān)系謂詞進(jìn)行綜合關(guān)系推理。本發(fā)明通過潛在關(guān)聯(lián)挖掘?qū)Σ煌宇惖囊曈X關(guān)系進(jìn)行細(xì)粒度識別,提高了視覺關(guān)系檢測的精度。
技術(shù)領(lǐng)域
本發(fā)明涉及視覺關(guān)系檢測領(lǐng)域,尤其涉及一種基于自適應(yīng)聚類學(xué)習(xí)的視覺關(guān)系檢測方法。
背景技術(shù)
視覺關(guān)系檢測任務(wù)旨在檢測和定位圖像中出現(xiàn)的成對相關(guān)視覺實體并推理視覺實體之間存在的視覺關(guān)系謂詞或交互方式[1]。如圖1所示,視覺關(guān)系不僅可以捕捉“人”和“筆記本電腦”的空間和語義信息,并且需要預(yù)測二者之間“看”這一動作。由于其結(jié)構(gòu)化描述的特點與豐富的語義空間,視覺關(guān)系檢測能夠推動多種高層級的視覺任務(wù)的發(fā)展,如復(fù)雜查詢條件下的圖像檢索任務(wù)[2]、圖像內(nèi)容描述任務(wù)[3]、視覺推理任務(wù)[4][5]、圖像生成任務(wù)[6]以及視覺問答任務(wù)[7][8]。
得益于近年來深度學(xué)習(xí)技術(shù)的快速發(fā)展,視覺關(guān)系檢測領(lǐng)域里取得了非常有潛力的進(jìn)展。早期視覺關(guān)系檢測任務(wù)采用的是視覺短語的定義[9],它將視覺實體對與視覺關(guān)系謂詞聯(lián)合看作一個預(yù)測的類別。然而這種方法缺乏魯棒性,嚴(yán)重依賴于充分的訓(xùn)練數(shù)據(jù),因此應(yīng)用于大規(guī)模的視覺關(guān)系檢測時效果不佳。近年來,研究者提出將視覺實體檢測和視覺關(guān)系謂詞檢測分離為不同的分支,從利用潛在語義先驗知識與豐富的上下文視覺信息兩個方面入手。
利用潛在語義先驗知識的方法包括:利用從大規(guī)模視覺關(guān)系訓(xùn)練標(biāo)注和公開文本語料庫中得到的語言知識用于視覺關(guān)系謂詞推理[10]。
利用豐富的上下文視覺信息的方法包括:利用視覺實體與視覺關(guān)系謂詞之間視覺表征,空間位置與統(tǒng)計依賴進(jìn)行上下文建模[11],提出基于循環(huán)神經(jīng)網(wǎng)絡(luò)的上下文消息傳遞機制來融合上下文視覺特征[12],采用長短時記憶網(wǎng)絡(luò)對全局上下文信息進(jìn)行編碼用于視覺關(guān)系謂詞推理[13]。
視覺關(guān)系檢測領(lǐng)域目前存在以下問題:
1、現(xiàn)有方法大多忽略了不同視覺關(guān)系之間的關(guān)聯(lián)信息:現(xiàn)有方法沒有充分挖掘不同視覺關(guān)系之間存在的潛在關(guān)聯(lián)視覺模式,而是在統(tǒng)一的聯(lián)合子空間中對所有視覺關(guān)系進(jìn)行識別。
2、視覺關(guān)系之間的關(guān)聯(lián)信息挖掘存在困難:由于視覺關(guān)系檢測包含一對相關(guān)視覺實體檢測與連接視覺關(guān)系謂詞的檢測,視覺關(guān)系建模復(fù)雜度遠(yuǎn)高于常見的視覺動作建模[14]和視覺目標(biāo)建模。
發(fā)明內(nèi)容
本發(fā)明提供了一種基于自適應(yīng)聚類學(xué)習(xí)的視覺關(guān)系檢測方法,本發(fā)明避免了在統(tǒng)一視覺關(guān)系空間對視覺關(guān)系建模而忽略了視覺關(guān)系之間潛在的關(guān)聯(lián)信息,能夠通過潛在關(guān)聯(lián)挖掘?qū)Σ煌宇惖囊曈X關(guān)系進(jìn)行細(xì)粒度識別,提高了視覺關(guān)系檢測的精度,并且可以應(yīng)用于任何視覺關(guān)系數(shù)據(jù)庫,詳見下文描述:
一種基于自適應(yīng)聚類學(xué)習(xí)的視覺關(guān)系檢測方法,所述方法包括:
從輸入圖像中檢測視覺實體并通過上下文信息傳遞機制識別視覺實體,獲得視覺實體上下文表征;
將成對視覺實體上下文表征統(tǒng)一低維嵌入聯(lián)合子空間中,獲取視覺關(guān)系共享表示特征;
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于天津大學(xué),未經(jīng)天津大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201911341230.3/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 使用后向自適應(yīng)規(guī)則進(jìn)行整數(shù)數(shù)據(jù)的無損自適應(yīng)Golomb/Rice編碼和解碼
- 一種自適應(yīng)軟件UML建模及其形式化驗證方法
- 媒體自適應(yīng)參數(shù)的調(diào)整方法、系統(tǒng)及相關(guān)設(shè)備
- 五自由度自適應(yīng)位姿調(diào)整平臺
- 采用自適應(yīng)機匣和自適應(yīng)風(fēng)扇的智能發(fā)動機
- 一種自適應(yīng)樹木自動涂白裝置
- 一種基于微服務(wù)的多層次自適應(yīng)方法
- 一種天然氣發(fā)動機燃?xì)庾赃m應(yīng)控制方法及系統(tǒng)
- 一種中心自適應(yīng)的焊接跟蹤機頭
- 一種有砟軌道沉降自適應(yīng)式軌道系統(tǒng)
- 根據(jù)用戶學(xué)習(xí)效果動態(tài)變化下載學(xué)習(xí)數(shù)據(jù)的系統(tǒng)及方法
- 用于智能個人化學(xué)習(xí)服務(wù)的方法
- 漸進(jìn)式學(xué)習(xí)管理方法及漸進(jìn)式學(xué)習(xí)系統(tǒng)
- 輔助學(xué)習(xí)的方法及裝置
- 基于人工智能的課程推薦方法、裝置、設(shè)備及存儲介質(zhì)
- 基于強化學(xué)習(xí)的自適應(yīng)移動學(xué)習(xí)路徑生成方法
- 一種線上視頻學(xué)習(xí)系統(tǒng)
- 一種基于校園大數(shù)據(jù)的自適應(yīng)學(xué)習(xí)方法、裝置及設(shè)備
- 一種學(xué)習(xí)方案推薦方法、裝置、設(shè)備和存儲介質(zhì)
- 游戲?qū)W習(xí)效果評測方法及系統(tǒng)





