[發(fā)明專利]一種基于動態(tài)詞嵌入的多模態(tài)Transformer的圖像描述方法在審
| 申請?zhí)枺?/td> | 202110537165.2 | 申請日: | 2021-07-19 |
| 公開(公告)號: | CN113344036A | 公開(公告)日: | 2021-09-03 |
| 發(fā)明(設(shè)計)人: | 曾凱;楊文瑞;朱艷;沈韜;劉英莉 | 申請(專利權(quán))人: | 昆明理工大學 |
| 主分類號: | G06K9/62 | 分類號: | G06K9/62;G06T9/00;G06F40/30 |
| 代理公司: | 昆明同聚專利代理有限公司 53214 | 代理人: | 王遠同 |
| 地址: | 650000 云*** | 國省代碼: | 云南;53 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 動態(tài) 嵌入 多模態(tài) transformer 圖像 描述 方法 | ||
本發(fā)明公開一種基于動態(tài)詞嵌入的多模態(tài)Transformer的圖像描述方法,屬于人工智能的領(lǐng)域。本發(fā)明構(gòu)建了一種同時進行模態(tài)內(nèi)與模態(tài)間注意力的模型,實現(xiàn)了多模態(tài)信息的融合,將卷積神經(jīng)網(wǎng)絡(luò)與Transformer進行橋接,并將圖像信息以及文本信息在同一向量空間進行融合,提高了模型進行語言描述的準確率;減少了圖像描述領(lǐng)域存在的語義鴻溝問題,本發(fā)明相對于使用Bottom?up與LSTM的基線模型在BLEU?1、BLEU?2、BLEU?3、BLEU?4、ROUGE?L、CIDEr?D上都有提高。
技術(shù)領(lǐng)域
本發(fā)明涉及一種基于動態(tài)詞嵌入的多模態(tài)Transformer的圖像描述方法,屬于人工智能技術(shù)領(lǐng)域。
背景技術(shù)
多模態(tài)深度學習旨在通過深度學習的方法實現(xiàn)處理和理解多源模態(tài)信息的能力。隨著社會和經(jīng)濟的快速興起,多模態(tài)深度學習已在社會生產(chǎn)中的各個方面有了眾多應(yīng)用,起到了非常矚目的效果。目前比較熱門的研究方向是圖像、視頻、音頻、語義之間的多模態(tài)學習。例如:在語音識別中,人類通過合并語音-視覺信息來理解語音。視覺模態(tài)提供了發(fā)音地方和肌肉運動的信息,可以幫助消除相似語音的歧義,以及通過肢體行為和語音來判斷說話者的情緒等等。
采用自然語言對圖像中的內(nèi)容進行描述,被稱作為圖像字幕描述。語義不僅需要計算機識別圖像的對象和屬性,還需要理解他們的關(guān)系,生成語法語義正確的自然語言。最早應(yīng)用的圖像處理方法是借助傳統(tǒng)的機器學習加以實現(xiàn),例如通過圖像處理算子對圖像進行特征提取,再借助支持向量機(SVM)劃分圖像類型,從而得到圖像目標。據(jù)此得到的目標與屬性即為生成語句的基礎(chǔ),而實際中使用本方法時取得的效果未達到預(yù)期。深入探索本領(lǐng)域研究歷程,劃分圖像語義描述為三種類型,分別為基于檢索的圖像描述、基于模板的圖像描述及基于深度學習的圖像描述。
基于檢索的方法是指使用基本的圖像處理算法,提取出圖像的特征值,并且檢測出圖像的目標,獲取其相應(yīng)的標簽信息,然后根據(jù)所得到的標簽信息在相應(yīng)的語料庫中進行檢索,尋找最為匹配的的描述作為圖像的標題然而,這種方法只能對一幅圖像進行標題的生成,而且只能生成語料庫中的標題,標題不具有多樣性,有些刻板生硬,并且不能準確直觀的描述出圖像中目標的相對關(guān)系,導(dǎo)致兩幅出現(xiàn)了相同目標但位置關(guān)系完全不同的圖像生成的標題卻是相同的。基于模板的方法,主要使用相對成熟的計算機視覺技術(shù)來進行圖像信息的特征提取,這里的圖像信息既包括圖像中的目標,業(yè)包括目標的屬性,然后將這些檢測到的目標填入模板。這種方法在很大程度上解決了生成文本不夠豐富的問題。但是由于該方法對人為設(shè)置的模板以及語法模型十分的依賴,所以導(dǎo)致生成的自然語言描述的結(jié)構(gòu)也十分的單一。近年來。隨著技術(shù)的不斷發(fā)展,使用神經(jīng)網(wǎng)絡(luò)來進行圖像描述的方法變得成熟,使用卷積神經(jīng)網(wǎng)絡(luò)(CNN)來進行圖像特征值的提取,使用循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)來進行描述的生成的這種編碼解碼框架成為主流。雖然基于CNN-RNN框架的圖像描述算法已經(jīng)取得了很好的準確率,但是仍然存在不足:現(xiàn)在有基于CNN-RNN的方法都大多在進行當前的主要工作都是在不同的模態(tài)間引入注意力機制,尋求圖像與文本之間的注意力得分,而忽略了模態(tài)內(nèi)的自注意力,即尋求圖像特征與文本描述模態(tài)內(nèi)的自我注意,這使得圖像底層視覺信息和最終的自然語言描述存在明顯的語義鴻溝,導(dǎo)致模型不能很好表示圖像目標之間的語義關(guān)系。
發(fā)明內(nèi)容
本發(fā)明提供了一種基于動態(tài)詞嵌入的多模態(tài)Transformer的圖像描述方法,本方法使用的是多模態(tài)深度學習模型,使用模態(tài)間與模態(tài)內(nèi)注意力的聯(lián)合建模方式,對輸入的數(shù)據(jù)進行建模,從而生成相應(yīng)的描述,解決了傳統(tǒng)方法中只是用模態(tài)間注意力而導(dǎo)致模型對語義理解不夠全面并且效果較差的問題,具體包括以下步驟:
(1)使用圖像特征提取器組件,選中圖像的顯著區(qū)域,對圖像進行圖像特征的提取:對圖像中的目標進行特征提取,生成更有意義的圖像特征矩陣。
(2)使用Transformer的圖像特征編碼器組件,對圖像特征進行編碼。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于昆明理工大學,未經(jīng)昆明理工大學許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110537165.2/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 同類專利
- 專利分類
G06K 數(shù)據(jù)識別;數(shù)據(jù)表示;記錄載體;記錄載體的處理
G06K9-00 用于閱讀或識別印刷或書寫字符或者用于識別圖形,例如,指紋的方法或裝置
G06K9-03 .錯誤的檢測或校正,例如,用重復(fù)掃描圖形的方法
G06K9-18 .應(yīng)用具有附加代碼標記或含有代碼標記的打印字符的,例如,由不同形狀的各個筆畫組成的,而且每個筆畫表示不同的代碼值的字符
G06K9-20 .圖像捕獲
G06K9-36 .圖像預(yù)處理,即無須判定關(guān)于圖像的同一性而進行的圖像信息處理
G06K9-60 .圖像捕獲和多種預(yù)處理作用的組合
- 用于智能機器人系統(tǒng)多模態(tài)輸出的方法及裝置
- 一種基于深度學習的多模態(tài)醫(yī)學影像識別方法及裝置
- 一種基于多模態(tài)生成式對抗網(wǎng)絡(luò)的云圖分類方法
- 一種基于多模態(tài)信息的食道功能性疾病診斷系統(tǒng)
- 一種有監(jiān)督的快速離散多模態(tài)哈希檢索方法和系統(tǒng)
- 一種多模態(tài)數(shù)據(jù)處理方法及系統(tǒng)
- 一種基于多模態(tài)學習的電力攻擊識別方法
- 多源多模態(tài)數(shù)據(jù)的處理系統(tǒng)及應(yīng)用該系統(tǒng)的方法
- 一種基于門機制多模態(tài)融合的情感分析方法
- 面向?qū)捰蝻w行的多模態(tài)精確劃分方法





