[發(fā)明專利]一種基于場景圖的圖像理解與表達方法、系統(tǒng)與存儲介質(zhì)有效
| 申請?zhí)枺?/td> | 202210243982.1 | 申請日: | 2022-03-11 |
| 公開(公告)號: | CN114612767B | 公開(公告)日: | 2022-11-15 |
| 發(fā)明(設(shè)計)人: | 匡平;劉晨陽 | 申請(專利權(quán))人: | 電子科技大學(xué) |
| 主分類號: | G06V20/00 | 分類號: | G06V20/00;G06V10/80;G06V10/82;G06K9/62;G06N3/04;G06N3/08 |
| 代理公司: | 成都虹盛匯泉專利代理有限公司 51268 | 代理人: | 王偉 |
| 地址: | 611731 四川省成*** | 國省代碼: | 四川;51 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 場景 圖像 理解 表達 方法 系統(tǒng) 存儲 介質(zhì) | ||
本發(fā)明公開一種基于視覺場景圖生成的圖像內(nèi)容理解與表達方法、系統(tǒng)與存儲介質(zhì),應(yīng)用于圖像理解與表達領(lǐng)域,針對現(xiàn)有技術(shù)存在的圖像表達準(zhǔn)確率和效率均較低的問題;本發(fā)明提出了基于關(guān)鍵中心點估計的視覺場景圖生成方法,不使用大量目標(biāo)檢測錨框和后處理手段,提升了場景圖生成的準(zhǔn)確率和效率,并充分理解了圖像內(nèi)容本身里目標(biāo)實體和實體之間、實體和屬性、實體和背景之間的關(guān)系,使得圖像內(nèi)容表達語句更準(zhǔn)確、更貼近圖像內(nèi)容本身;本發(fā)明還引入先驗語料知識,補足場景圖生成過程中關(guān)系謂詞等詞匯輸出的缺失,提升了圖像內(nèi)容理解與表達的表達語句準(zhǔn)確率和擬人化水平;相比于現(xiàn)有技術(shù),本發(fā)明的圖像表達準(zhǔn)確率和效率均有顯著的提升。
技術(shù)領(lǐng)域
本發(fā)明屬于圖像處理領(lǐng)域,特別涉及一種視覺場景圖生成技術(shù)。
背景技術(shù)
圖像內(nèi)容理解與表達,如圖1所示,即給定一張輸入圖像,而后需要機器去感知圖像中的目標(biāo)實體、屬性、捕捉畫面中的關(guān)系,最后生成一段對于圖像內(nèi)容理解的描述性質(zhì)的表達語句。
圖像內(nèi)容理解與表達領(lǐng)域隨著研究的不斷深入,主要發(fā)展出三條較為成熟的技術(shù)路線:模板方法、相似性檢索方法和基于編解碼及衍生結(jié)構(gòu)方法?;谀0宓膱D像內(nèi)容理解與表達方法,使用較為傳統(tǒng)的視覺依存關(guān)系提取圖像中的視覺特征,表達階段使用句法樹構(gòu)建模板式的表達模型;基于相似性檢索的圖像內(nèi)容理解與表達方法,通過檢索向量空間中最接近與先驗數(shù)據(jù)集中圖像內(nèi)容表達的方式,查詢與當(dāng)前圖像模態(tài)輸入最接近的句式以生成圖像表達;基于編解碼及衍生結(jié)構(gòu)的方法,使用深度學(xué)習(xí)方法中卷積神經(jīng)網(wǎng)絡(luò)等相關(guān)技術(shù)構(gòu)建以提取視覺特征的編碼器,并使用基于循環(huán)神經(jīng)網(wǎng)絡(luò)的解碼結(jié)構(gòu)將視覺特征解碼為輸出語義序列。
1)模板方法:基于模板的方法在圖像內(nèi)容表達過程中使用最大熵語言模型、馬爾科夫隨機場等相關(guān)傳統(tǒng)方法構(gòu)建句法樹,并根據(jù)先驗?zāi)0鍖⒍鄠€單詞或詞組組合成對應(yīng)的圖像內(nèi)容表達。Kulkarni等人于2013年提出了Baby Talk模型,基于條件隨機場計算一元圖像電勢,結(jié)合語料庫中的高階文本電勢模板,推理出合適的單詞和詞組并最終形成圖像表達。Yang等人提出的圖像表達策略通過預(yù)測核心句子表達結(jié)構(gòu)中最有可能出現(xiàn)的名詞、動詞、場景和介詞,結(jié)合先驗語料庫模板,實現(xiàn)圖像理解與表達。
2)基于相似性檢索的方法,多利用圖像視覺的相似性而并非直接使用深度學(xué)習(xí)方法構(gòu)建對應(yīng)的理解與表達模型,其方法并非直接理解圖像內(nèi)容而是尋找與先驗數(shù)據(jù)庫中數(shù)據(jù)的相似關(guān)聯(lián),從本質(zhì)上將圖像理解與表達任務(wù)轉(zhuǎn)換為圖像檢索任務(wù)。Mason等人通過估計查詢圖像的視覺內(nèi)容的詞頻解決了視覺噪聲與先驗數(shù)據(jù)庫中數(shù)據(jù)的對齊問題,通過尋找相似語義的已標(biāo)注圖像以形成圖像表達。
3)基于編解碼及衍生結(jié)構(gòu)的方法,是現(xiàn)有研究的主流方法。在原始機器翻譯任務(wù)中由循環(huán)神經(jīng)網(wǎng)絡(luò)構(gòu)建的編解碼器中,輸入序列與輸出序列必須遵守等長的規(guī)則,而OVinyals等人提出了Show and Tell模型,將原有機器翻譯任務(wù)中使用循環(huán)神經(jīng)網(wǎng)絡(luò)構(gòu)建的的編碼器換成了處理視覺任務(wù)的卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),為圖像提取視覺特征,依然使用原有的解碼器結(jié)構(gòu)輸出序列,解決了編解碼器結(jié)構(gòu)中輸入輸出長度對齊的問題。Kelvin Xu等人提出Show,Attend and Tell模型,將注意力機制引入編解碼器結(jié)構(gòu),使模型能夠自動學(xué)習(xí)需要重點關(guān)注的對象,并在輸出序列中生成相應(yīng)的圖像表達。Chen等人不僅在編解碼器中加入了注意力機制,并改變了解碼器部分循環(huán)神經(jīng)網(wǎng)絡(luò)本身的結(jié)構(gòu),使模型不僅能夠從圖像內(nèi)容理解中獲得圖像表達,還能從圖像表達中獲得對圖像內(nèi)容理解的相關(guān)圖像特征,并提高了運算的整體性能。
現(xiàn)有技術(shù)存在以下問題:
(1)現(xiàn)有主流的圖像內(nèi)容理解與表達方法為基于編解碼及衍生結(jié)構(gòu)的方法,如圖2所示,在該方法中編碼器并未充分關(guān)注圖像內(nèi)容中實體與屬性、實體與實體、實體與背景之間的關(guān)系,不能夠在解碼階段形成體現(xiàn)圖像內(nèi)容中“關(guān)系”的準(zhǔn)確圖像表達。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于電子科技大學(xué),未經(jīng)電子科技大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202210243982.1/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 上一篇:赤泥活性的檢測方法
- 下一篇:飛行相機和系統(tǒng)
- 彩色圖像和單色圖像的圖像處理
- 圖像編碼/圖像解碼方法以及圖像編碼/圖像解碼裝置
- 圖像處理裝置、圖像形成裝置、圖像讀取裝置、圖像處理方法
- 圖像解密方法、圖像加密方法、圖像解密裝置、圖像加密裝置、圖像解密程序以及圖像加密程序
- 圖像解密方法、圖像加密方法、圖像解密裝置、圖像加密裝置、圖像解密程序以及圖像加密程序
- 圖像編碼方法、圖像解碼方法、圖像編碼裝置、圖像解碼裝置、圖像編碼程序以及圖像解碼程序
- 圖像編碼方法、圖像解碼方法、圖像編碼裝置、圖像解碼裝置、圖像編碼程序、以及圖像解碼程序
- 圖像形成設(shè)備、圖像形成系統(tǒng)和圖像形成方法
- 圖像編碼裝置、圖像編碼方法、圖像編碼程序、圖像解碼裝置、圖像解碼方法及圖像解碼程序
- 圖像編碼裝置、圖像編碼方法、圖像編碼程序、圖像解碼裝置、圖像解碼方法及圖像解碼程序





