[發(fā)明專利]一種基于視覺嵌入和條件歸一化的圖像描述方法有效
| 申請(qǐng)?zhí)枺?/td> | 202110292545.4 | 申請(qǐng)日: | 2021-03-18 |
| 公開(公告)號(hào): | CN113139378B | 公開(公告)日: | 2022-02-18 |
| 發(fā)明(設(shè)計(jì))人: | 張旻;李鵬飛;林培捷;湯景凡;姜明 | 申請(qǐng)(專利權(quán))人: | 杭州電子科技大學(xué) |
| 主分類號(hào): | G06F40/258 | 分類號(hào): | G06F40/258;G06V10/40;G06N3/04;G06N3/08 |
| 代理公司: | 杭州君度專利代理事務(wù)所(特殊普通合伙) 33240 | 代理人: | 朱月芬 |
| 地址: | 310018 浙*** | 國省代碼: | 浙江;33 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 視覺 嵌入 條件 歸一化 圖像 描述 方法 | ||
本發(fā)明公開了一種基于視覺嵌入和條件歸一化的圖像描述方法。本發(fā)明提出了一種基于transformer模型的網(wǎng)絡(luò),被稱為V?CLTM。在transformer模型的輸入端,使用關(guān)鍵詞嵌入模塊(KEM)提取圖像中的目標(biāo)類別作為關(guān)鍵詞,結(jié)合文本序列作為輸入序列;使用視覺嵌入模塊(VEM)用來提取圖像特征,并將特征編碼成transformer的歸一化層能接受維度作為條件輸入;同時(shí),本發(fā)明提出的條件歸一化的LN層是一種通過視覺嵌入來調(diào)節(jié)模型進(jìn)行特征選擇的有效機(jī)制,將條件歸一化LN應(yīng)用于transformer上。結(jié)果表明,這種方法具有更好的魯棒性和自適應(yīng)能力。
技術(shù)領(lǐng)域
本發(fā)明涉及圖像字幕生成方法,具體來講是一種基于視覺嵌入和條件歸一化的圖像描述方法,屬于圖像字幕生成技術(shù)領(lǐng)域。
背景技術(shù)
圖像描述是計(jì)算機(jī)視覺和自然語言處理的綜合性任務(wù),這個(gè)任務(wù)是具有挑戰(zhàn)性的。它要準(zhǔn)確的找到圖像中顯著性的物體,物體的屬性,物體之間的關(guān)系以及所處場(chǎng)景,并使用自然語言正確的進(jìn)行描述。得益于深度學(xué)習(xí)的快速發(fā)展,圖像描述任務(wù)取得了優(yōu)秀的成果,在一些評(píng)價(jià)指標(biāo)上甚至超過了人類。
近年來,transformer模型使用全注意力機(jī)制的結(jié)構(gòu)代替了LSTM應(yīng)用在翻譯任務(wù)中。針對(duì)圖像-文本,語音-文本等研究也越來越多,具體應(yīng)用上包括了圖像字幕,視頻字幕,圖像問答,視頻問答等。相對(duì)于傳統(tǒng)編碼-解碼過程,transformer模型在這些任務(wù)上的成果是優(yōu)秀的。該模型的輸入序列包括了來自文本的單詞、圖像的感興趣區(qū)域以及消除不同模態(tài)數(shù)據(jù)的特定元素。在輸入操作之前,通過注意力機(jī)制將視覺-語言進(jìn)行聚合、對(duì)齊是常見的操作。但是,最終任務(wù)需要的視覺信息和文本信息應(yīng)該在模型學(xué)習(xí)整個(gè)過程起作用,而不是僅依靠輸入序列的多模態(tài)融合信息。CBN(Conditional Batch Normalization)中認(rèn)為語言能夠更好的幫助圖像模型更好的識(shí)別圖像。CBN以LSTM提取的自然語言特征作為條件,預(yù)測(cè)BN(Batch Normalization)層參數(shù)的增量,使得不同的輸入都有相對(duì)應(yīng)的歸一化參數(shù)。既然自然語言特征可以作為條件,用于預(yù)測(cè)BN參數(shù)的變化,那么圖片的類別信息自然也可以作為條件來預(yù)測(cè)BN層的參數(shù)。受此啟發(fā),本發(fā)明認(rèn)為圖像作為條件能夠幫助transformer模型更好的生成描述。在transformer模型中,LN(layer Normalization)層取代了BN層,因此需要將文本或圖片信息嵌入到LN層中,通過這種操作使得transformer模型面對(duì)生成文本任務(wù)時(shí),能更好的參考條件信息進(jìn)行特征選擇。另外,這種條件嵌入的方法需要為transformer提供合適的信息。因此,本發(fā)明在transformer編解碼過程中選取了易于改變的LN層來接受參考條件。使用圖像預(yù)訓(xùn)練模型提取圖像信息,并將圖像信息經(jīng)過不同的編碼過程編碼為transformer能夠接受的維度。
發(fā)明內(nèi)容
本發(fā)明的目的是針對(duì)現(xiàn)有技術(shù)的不足,提供一種通過視覺嵌入來調(diào)節(jié)transformer模型訓(xùn)練過程中進(jìn)行特征選擇的有效機(jī)制,以解決視覺-語言模型在訓(xùn)練過程中,不能時(shí)刻借鑒圖像信息的問題。具體來說,在transformer模型的輸入端,構(gòu)建關(guān)鍵詞嵌入模塊(KEM),KEM使用目標(biāo)檢測(cè)的方法對(duì)圖像進(jìn)行目標(biāo)檢測(cè),將結(jié)果組合成序列,和訓(xùn)練集中圖像字幕組合成最終序列組合,通過輸入端進(jìn)行輸入。構(gòu)建視覺嵌入模塊(VEM)對(duì)圖像特征進(jìn)行提取,將圖像進(jìn)行編碼,通過條件嵌入的方式進(jìn)行輸入。對(duì)于transformer中的LN層已經(jīng)有現(xiàn)成的、無條件的g(gain)和(bias)b了,它們用于對(duì)特征施加增益和偏置操作,都是固定長度的向量。通過VEM對(duì)圖像進(jìn)行編碼為g′,b′作為條件輸入,g′,b′跟g,b具有相同的維度,然后將結(jié)果分別加到g和b上去。從含義上講可以解釋為:根據(jù)g′,b′的信息,transformer模型在針對(duì)圖像字幕任務(wù)生成過程中,針對(duì)性學(xué)習(xí)和圖像特征相關(guān)的信息,進(jìn)而調(diào)節(jié)權(quán)重。結(jié)果表明,這種方法具有更好的魯棒性和自適應(yīng)能力。
本發(fā)明有益效果如下:
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于杭州電子科技大學(xué),未經(jīng)杭州電子科技大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110292545.4/2.html,轉(zhuǎn)載請(qǐng)聲明來源鉆瓜專利網(wǎng)。
- 限制條件解決方法、限制條件解決裝置、以及限制條件解決系統(tǒng)
- 制造條件設(shè)定系統(tǒng)及制造條件設(shè)定方法
- 成形條件確定方法及成形條件確定系統(tǒng)
- 成形條件設(shè)定裝置、成形條件設(shè)定方法及成形條件設(shè)定畫面
- 攝影條件設(shè)定設(shè)備、攝影條件設(shè)定方法和攝影條件設(shè)定程序
- 生理?xiàng)l件監(jiān)視系統(tǒng)、生理?xiàng)l件傳感器和生理?xiàng)l件儀表
- 成形條件設(shè)定裝置、成形條件設(shè)定方法及成形條件設(shè)定畫面
- 條件訪問設(shè)備
- 用于條件切換的裝置、方法、介質(zhì)和系統(tǒng)
- 基于條件分布的條件生成對(duì)抗網(wǎng)絡(luò)





