[發(fā)明專利]一種基于場景圖高階語義結(jié)構(gòu)的視覺關(guān)系檢測方法及裝置有效
| 申請(qǐng)?zhí)枺?/td> | 202110573757.X | 申請(qǐng)日: | 2021-05-25 |
| 公開(公告)號(hào): | CN113240033B | 公開(公告)日: | 2022-06-28 |
| 發(fā)明(設(shè)計(jì))人: | 袁春;魏萌 | 申請(qǐng)(專利權(quán))人: | 清華大學(xué)深圳國際研究生院 |
| 主分類號(hào): | G06V10/762 | 分類號(hào): | G06V10/762;G06V10/764;G06V10/82;G06V10/774;G06V20/70;G06K9/62;G06N3/04;G06N3/08 |
| 代理公司: | 深圳新創(chuàng)友知識(shí)產(chǎn)權(quán)代理有限公司 44223 | 代理人: | 江耀純 |
| 地址: | 518055 廣東省深圳市*** | 國省代碼: | 廣東;44 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 場景 圖高階 語義 結(jié)構(gòu) 視覺 關(guān)系 檢測 方法 裝置 | ||
本發(fā)明提出一種基于場景圖高階語義結(jié)構(gòu)的視覺關(guān)系檢測方法及裝置,算法包括預(yù)測圖片中所有物體的類別和位置,輸出每個(gè)物體所對(duì)應(yīng)的視覺特征向量,對(duì)檢測出的所有物體中的每兩個(gè)進(jìn)行配對(duì)操作,基于配對(duì)結(jié)果,提取聯(lián)合視覺特征向量,對(duì)位置進(jìn)行編碼得到位置編碼;將所述所有物體的類別輸入層級(jí)語義聚類算法,經(jīng)過處理得到每個(gè)物體對(duì)應(yīng)的高層語義特征向量;對(duì)所述層級(jí)語義聚類算法的輸出進(jìn)行語義編碼;生成關(guān)系分類器權(quán)重;將所述視覺特征向量、所述聯(lián)合視覺特征向量和所述位置編碼合并為統(tǒng)一的特征向量,利用所述關(guān)系分類器權(quán)重對(duì)所述統(tǒng)一的特征向量進(jìn)行點(diǎn)乘操作,最終得到每兩個(gè)物體之間的關(guān)系條件概率,作為場景圖。
技術(shù)領(lǐng)域
本發(fā)明涉及圖像處理領(lǐng)域,特別是一種基于場景圖高階語義結(jié)構(gòu)的視覺關(guān)系檢測方法及裝置。
背景技術(shù)
視覺關(guān)系檢測任務(wù)的主要目標(biāo)是對(duì)圖像中存在的視覺三元關(guān)系(主語,關(guān)系,賓語)的內(nèi)容進(jìn)行識(shí)別和定位。識(shí)別指識(shí)別目標(biāo)物體的類別屬性,定位是將目標(biāo)物體的邊界框回歸出來。理解視覺場景通常不僅僅在于識(shí)別單個(gè)物體,即使是完美的物體檢測器,也很難感知到喂馬的人與站在馬旁邊的人之間的細(xì)微差別。學(xué)習(xí)這些物體之間豐富的語義關(guān)系是視覺關(guān)系檢測的意義所在。更深入地了解視覺場景的關(guān)鍵則是在識(shí)別物體的基礎(chǔ)上,根據(jù)場景構(gòu)建一種結(jié)構(gòu)化的表示形式,以捕獲物體及其語義關(guān)系。這樣的表征不僅為基礎(chǔ)識(shí)別任務(wù)提供了上下文信息,而且還對(duì)各種高級(jí)視覺任務(wù)有極大的價(jià)值。這種結(jié)構(gòu)化的表達(dá)被稱為場景圖。場景圖提供了一個(gè)顯式建模物體及其關(guān)系的表達(dá)。簡而言之,場景圖是圖像物體的視覺定位圖,其中邊的連接描繪了它們的成對(duì)關(guān)系。
視覺關(guān)系檢測在很多領(lǐng)域都是底層核心算法,有著廣泛的應(yīng)用,例如,在圖像檢索領(lǐng)域它使得檢索算法可以更好的理解所輸入的文本和圖像之間的關(guān)系,從而改善檢索效果;在自動(dòng)駕駛領(lǐng)域,它可以給予自動(dòng)駕駛汽車提出當(dāng)前場景的結(jié)構(gòu),以幫助自動(dòng)駕駛汽車安全行駛。
檢測圖像中的視覺關(guān)系是一項(xiàng)艱巨的任務(wù),困難主要來自兩方面:(1)難以獲得正確種類和數(shù)量的標(biāo)注以及完整的三元組標(biāo)注;(2)在視覺外觀和語言描述方面,關(guān)系存在極大的可變性。首先獲取物體邊界框級(jí)別的標(biāo)注是非常困難的。檢測圖像中的視覺關(guān)系需要通過在圖像中相應(yīng)的視覺實(shí)體周圍確定邊界框來定位交互作用中的主語和賓語。因此,對(duì)于全監(jiān)督模型而言,理想的訓(xùn)練數(shù)據(jù)是有框級(jí)別標(biāo)注的視覺關(guān)系的圖像,即在物體周圍繪制邊界框,并且每對(duì)交互物體都用描述性三元組標(biāo)記。然而,獲得這樣的注釋是非常昂貴的。
難以獲取標(biāo)注的另一個(gè)原因是視覺關(guān)系的組合性質(zhì)所導(dǎo)致的三元組合爆炸。對(duì)于N個(gè)不同的物體類別和K個(gè)不同的關(guān)系的詞匯表,可能的關(guān)系數(shù)為N×N×K,例如,對(duì)于N=100,可能存在著一百萬個(gè)可能的三元組。由于這些三元組中的大多數(shù)在現(xiàn)實(shí)世界中很少見或看不見,因此訓(xùn)練數(shù)據(jù)本身總是呈現(xiàn)長尾分布,即標(biāo)注集中在很少的關(guān)系上,而詞匯表中的大多數(shù)三元組則只有很少的或沒有訓(xùn)練數(shù)據(jù)。長尾分布不是由標(biāo)注的質(zhì)量好壞導(dǎo)致的,而在自然狀況下采集的數(shù)據(jù)的分布通常都是呈現(xiàn)相同的長尾分布。在長尾分布的數(shù)據(jù)集上訓(xùn)練算法,往往會(huì)出現(xiàn)過擬合的現(xiàn)象,即算法會(huì)主要關(guān)注數(shù)據(jù)量集中的頭部類別上,而尾部的類別的學(xué)習(xí)會(huì)被忽略掉。因此,將視覺關(guān)系檢測器應(yīng)用到大量的三元組上是一個(gè)重大挑戰(zhàn)。但是從工業(yè)需求上看,對(duì)于長尾數(shù)據(jù)上的算法研究,可以極大地降低標(biāo)注成本,提升數(shù)據(jù)采集的效率。
早期視覺關(guān)系識(shí)別的方法是將關(guān)系三元組作為一個(gè)整體去學(xué)習(xí),即為每種關(guān)系三元組類別訓(xùn)練獨(dú)立的檢測器。但這種方法只適用于關(guān)系三元組較少,且每個(gè)三元組的標(biāo)注數(shù)據(jù)較多的小型數(shù)據(jù)集。這種情況下,視覺關(guān)系檢測任務(wù)則非常類似于目標(biāo)檢測任務(wù),只是此時(shí)的檢測對(duì)象由單個(gè)的物體變?yōu)閮蓚€(gè)物體及其之間的關(guān)系。然而,隨著數(shù)據(jù)集的發(fā)展,視覺關(guān)系數(shù)據(jù)集不再定義在預(yù)設(shè)好的關(guān)系三元組上,而是開放的詞匯表,這樣可能的三元組數(shù)量非常龐大,并且大多數(shù)三元組都沒有足夠的標(biāo)注數(shù)據(jù)。在這種情況下,訓(xùn)練一個(gè)以三元組為單位的檢測器是無法實(shí)現(xiàn)的,因此這促進(jìn)了組合模型的發(fā)展,即不再為每一個(gè)視覺關(guān)系三元組都單獨(dú)檢測,檢測目標(biāo)變?yōu)榭梢栽诙鄠€(gè)視覺關(guān)系三元組之間共享的更簡單的視覺單元。這種觀點(diǎn)的改變受到自然語言結(jié)構(gòu)的啟發(fā),在自然語言描述中,視覺關(guān)系以三元組的組成形式表示,而每個(gè)組成部分可以獨(dú)立地被觀察到,也可以作為不同視覺交互的一部分被觀察到。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于清華大學(xué)深圳國際研究生院,未經(jīng)清華大學(xué)深圳國際研究生院許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110573757.X/2.html,轉(zhuǎn)載請(qǐng)聲明來源鉆瓜專利網(wǎng)。
- 電視場景切換的方法及電視
- 視頻場景控制系統(tǒng)及方法
- 場景開關(guān)及其場景開關(guān)構(gòu)件和場景圖標(biāo)卡組件
- 場景聯(lián)動(dòng)方法及場景聯(lián)動(dòng)系統(tǒng)
- 一種視頻場景分類方法、裝置、移動(dòng)終端及存儲(chǔ)介質(zhì)
- 一種Unity3D引擎的場景切換方法和系統(tǒng)
- 一種自動(dòng)駕駛場景分類識(shí)別系統(tǒng)及方法
- 一種虛擬場景生成方法、裝置、設(shè)備和存儲(chǔ)介質(zhì)
- 一種汽車圖像場景庫數(shù)據(jù)復(fù)雜度度量方法
- 場景識(shí)別方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)
- 高階程序語言自動(dòng)轉(zhuǎn)換成活動(dòng)圖的方法
- 一種高階正交幅度調(diào)制信號(hào)頻偏估計(jì)方法及裝置
- 一種基于高階圖跨時(shí)域關(guān)聯(lián)的多目標(biāo)跟蹤方法
- 基于高階統(tǒng)計(jì)特征的多波段雷達(dá)圖像變化檢測方法
- 一種快速計(jì)算EGN模型中高階噪聲系數(shù)的方法
- 一種基于頻繁交易模式的異常賬戶檢測方法及系統(tǒng)
- 圖像處理的方法及裝置
- 軌跡生成方法、裝置、計(jì)算機(jī)設(shè)備及計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)
- 一種基于高階連接圖的協(xié)同過濾推薦算法
- 圖結(jié)構(gòu)表征的高階關(guān)聯(lián)發(fā)現(xiàn)細(xì)粒度圖像識(shí)別方法及裝置
- 面向語義Web服務(wù)程序設(shè)計(jì)的語義數(shù)據(jù)表示和處理方法
- 一種基于語義的三維模型檢索系統(tǒng)和方法
- 一種計(jì)算機(jī)語義工程系統(tǒng)
- 導(dǎo)航方法及裝置
- 一種分層次多語義網(wǎng)系統(tǒng)及方法
- 一種基于上下文的語義匹配方法和系統(tǒng)
- 遠(yuǎn)程語義識(shí)別方法、裝置、設(shè)備及計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)
- 一種基于語義依存關(guān)系的醫(yī)療文本標(biāo)注方法
- 基于多級(jí)語義表征和語義計(jì)算的信號(hào)語義識(shí)別方法
- 語義分類方法及裝置、存儲(chǔ)介質(zhì)及電子設(shè)備





