[發(fā)明專利]結(jié)合抽象語(yǔ)義表示的圖像描述生成方法、系統(tǒng)及介質(zhì)有效
| 申請(qǐng)?zhí)枺?/td> | 202010581219.0 | 申請(qǐng)日: | 2020-06-23 |
| 公開(公告)號(hào): | CN111612103B | 公開(公告)日: | 2023-07-11 |
| 發(fā)明(設(shè)計(jì))人: | 唐晉韜;陳鳳;李莎莎;龐焜元;王挺;王攀成;林登雯;何亮亮;徐欽杭 | 申請(qǐng)(專利權(quán))人: | 中國(guó)人民解放軍國(guó)防科技大學(xué) |
| 主分類號(hào): | G06F18/214 | 分類號(hào): | G06F18/214;G06F18/24;G06N3/0442;G06N3/092;G06F40/30;G06F40/126;G06F40/284 |
| 代理公司: | 湖南兆弘專利事務(wù)所(普通合伙) 43008 | 代理人: | 譚武藝 |
| 地址: | 410073 湖南*** | 國(guó)省代碼: | 湖南;43 |
| 權(quán)利要求書: | 查看更多 | 說(shuō)明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 結(jié)合 抽象 語(yǔ)義 表示 圖像 描述 生成 方法 系統(tǒng) 介質(zhì) | ||
1.一種結(jié)合抽象語(yǔ)義表示的圖像描述生成方法,其特征在于,該方法采用預(yù)先完成訓(xùn)練的語(yǔ)言生成器來(lái)根據(jù)輸入的圖像生成對(duì)應(yīng)的圖像描述,且訓(xùn)練語(yǔ)言生成器的步驟包括:
1)針對(duì)訓(xùn)練數(shù)據(jù)集進(jìn)行抽象語(yǔ)義表示標(biāo)注,包括:1.1)輸入帶有標(biāo)注語(yǔ)句的訓(xùn)練數(shù)據(jù)集,采用AMR解析器將訓(xùn)練數(shù)據(jù)集的標(biāo)注語(yǔ)句為對(duì)應(yīng)的抽象語(yǔ)義表示圖,將每個(gè)抽象語(yǔ)義表示圖表示為概念三元組的序列,表示抽象語(yǔ)義表示圖中邊,其中表示圖G中的結(jié)點(diǎn),E表示邊,h、l和t分別表示圖中每條邊的首結(jié)點(diǎn)、邊屬性標(biāo)簽和尾結(jié)點(diǎn);1.2)將訓(xùn)練數(shù)據(jù)集中所有的抽象語(yǔ)義表示圖的三元組信息進(jìn)行統(tǒng)計(jì)匯總,并將相同含義的結(jié)點(diǎn)進(jìn)行合并;僅保留在所有結(jié)果出現(xiàn)次數(shù)大于預(yù)設(shè)閾值的結(jié)點(diǎn),其他結(jié)點(diǎn)替換為指定的符號(hào);
2)基于帶有抽象語(yǔ)義表示的訓(xùn)練數(shù)據(jù)集訓(xùn)練抽象語(yǔ)義表示預(yù)測(cè)器;
3)將圖像的候選區(qū)域視覺特征作為圖像的視覺特征,圖像的抽象語(yǔ)義表示特征作為語(yǔ)義特征,這兩種特征同時(shí)作為基于注意力機(jī)制的語(yǔ)言生成器的輸入、訓(xùn)練語(yǔ)言生成器;
4)使用訓(xùn)練好的語(yǔ)言生成器對(duì)測(cè)試集圖像中的圖像生成圖像描述;
5)針對(duì)語(yǔ)言生成器進(jìn)行效果評(píng)測(cè);
所述抽象語(yǔ)義表示預(yù)測(cè)器為基于雙重注意力機(jī)制的LSTM模型,步驟2)的詳細(xì)步驟包括:
2.1)針對(duì)訓(xùn)練數(shù)據(jù)集中的每一張圖像分別獲取候選框,并提取每個(gè)候選框內(nèi)局部圖像的特征表示向量,將候選向量集作為該圖像的視覺特征,得到視覺特征集V;
2.2)設(shè)計(jì)基于雙重注意力機(jī)制的LSTM模型作為抽象語(yǔ)義表示預(yù)測(cè)器,所述基于雙重注意力機(jī)制的LSTM模型包括用于預(yù)測(cè)結(jié)點(diǎn)的結(jié)點(diǎn)預(yù)測(cè)LSTM和用于預(yù)測(cè)關(guān)系屬性標(biāo)簽的標(biāo)簽預(yù)測(cè)LSTM,在模型訓(xùn)練的每一時(shí)間步,結(jié)點(diǎn)預(yù)測(cè)LSTM的輸入包括:上一時(shí)間步的輸出,視覺特征集V、全局視覺特征和上一時(shí)間步生成的首結(jié)點(diǎn);標(biāo)簽預(yù)測(cè)LSTM的輸入則為:視覺特征集V、全局視覺特征和上一時(shí)間步生成的關(guān)系屬性標(biāo)簽;將結(jié)點(diǎn)預(yù)測(cè)LSTM、標(biāo)簽預(yù)測(cè)LSTM為一起訓(xùn)練,且訓(xùn)練過(guò)程中采用聯(lián)合交叉熵?fù)p失函數(shù)訓(xùn)練模型作為損失函數(shù);設(shè)置訓(xùn)練過(guò)程中每一步的批次大小、輸入映射維度和LSTM隱層大小,然后在訓(xùn)練數(shù)據(jù)集上完成對(duì)抽象語(yǔ)義表示預(yù)測(cè)器的訓(xùn)練;
2.3)使用訓(xùn)練好的抽象語(yǔ)義表示預(yù)測(cè)器對(duì)訓(xùn)練數(shù)據(jù)集提取抽象語(yǔ)義特征,并將圖像的視覺特征及其對(duì)應(yīng)的抽象語(yǔ)義表示特征進(jìn)行對(duì)齊;
所述基于注意力機(jī)制的語(yǔ)言生成器包括依次相連的LSTM層、雙重注意力層、語(yǔ)言生成LSTM層和softmax層;其中LSTM層為標(biāo)準(zhǔn)LSTM層,其輸入包含四部分:LSTM層上一時(shí)間步的輸出,語(yǔ)言生成LSTM層上一時(shí)間步的輸出,全局視覺特征和上一時(shí)間步的生成的詞;雙重注意力層的第一重注意力針對(duì)視覺特征,LSTM層的輸出和視覺特征V作為注意力層輸入,第二重注意力使用三個(gè)注意力層分別針對(duì)抽象語(yǔ)義表示三元組序列的首結(jié)點(diǎn)/關(guān)系屬性標(biāo)簽/尾結(jié)點(diǎn)序列進(jìn)行計(jì)算;第一重注意力和第二重注意力計(jì)算注意力權(quán)重向量,,令權(quán)重向量為,歸一化為,則注意力結(jié)果為;其中//分別為參數(shù)矩陣,為圖像的第i個(gè)區(qū)域特征,為L(zhǎng)STM在t時(shí)間的輸出,和為激活函數(shù),為對(duì)應(yīng)圖像的視覺特征集;語(yǔ)言生成LSTM層為線性映射層,用于將連接之后的抽象語(yǔ)義表示的三個(gè)注意力結(jié)果映射到低維,其輸入為:LSTM層當(dāng)前時(shí)間步的輸出,語(yǔ)言生成LSTM層上一時(shí)間步的輸出,視覺注意力結(jié)果為和抽象語(yǔ)義表示注意力結(jié)果為;層用于將語(yǔ)言生成LSTM層的輸出計(jì)算在詞表上對(duì)應(yīng)單詞的概率,從而獲取本時(shí)間步生成的單詞;所述基于注意力機(jī)制的語(yǔ)言生成器的訓(xùn)練目標(biāo)為最小化如下交叉熵?fù)p失:,其中分別表示個(gè)樣例中第張圖像視覺特征集、三元組序列信息和全局視覺特征,為模型參數(shù),表示模型參數(shù)為并在條件下生成的概率,表示對(duì)數(shù)函數(shù),表示對(duì)到求和。
2.根據(jù)權(quán)利要求1所述的結(jié)合抽象語(yǔ)義表示的圖像描述生成方法,其特征在于,步驟3)中訓(xùn)練語(yǔ)言生成器時(shí),首先設(shè)置訓(xùn)練過(guò)程中每一步的批次大小、輸入映射維度和LSTM隱層大小,然后在訓(xùn)練數(shù)據(jù)集上完成對(duì)語(yǔ)言生成器的N1輪訓(xùn)練并保存語(yǔ)言生成器的模型;然后使用強(qiáng)化學(xué)習(xí)技術(shù),損失函數(shù)的參數(shù)設(shè)置同樣使用交叉熵?fù)p失函數(shù)的模型,繼續(xù)訓(xùn)練語(yǔ)言生成器N2輪,每指定數(shù)量個(gè)批次保存語(yǔ)言生成器的模型,并對(duì)比當(dāng)前模型和最好模型,如若當(dāng)前模型在驗(yàn)證集效果更好,則更新最好模型為當(dāng)前模型,從而最終完成語(yǔ)言生成器的訓(xùn)練,得到完成訓(xùn)練后的語(yǔ)言生成器。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于中國(guó)人民解放軍國(guó)防科技大學(xué),未經(jīng)中國(guó)人民解放軍國(guó)防科技大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010581219.0/1.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專利網(wǎng)。
- 處理抽象查詢的方法和系統(tǒng)
- 一種抽象屬性的數(shù)據(jù)化及表示方法與應(yīng)用
- 抽象控件模型編程裝置和方法
- 一種創(chuàng)建抽象設(shè)備的方法和裝置
- 虛擬設(shè)備組成動(dòng)態(tài)更新方法及裝置
- 優(yōu)化抽象語(yǔ)義庫(kù)的方法及裝置
- 基于移動(dòng)跨平臺(tái)的抽象控件模型實(shí)現(xiàn)方法
- 一種基于ACTN控制器系統(tǒng)的抽象方法和裝置
- 優(yōu)化抽象語(yǔ)義庫(kù)的方法、裝置及存儲(chǔ)介質(zhì)
- 機(jī)器對(duì)機(jī)器系統(tǒng)中的動(dòng)態(tài)用戶界面
- 面向語(yǔ)義Web服務(wù)程序設(shè)計(jì)的語(yǔ)義數(shù)據(jù)表示和處理方法
- 一種基于語(yǔ)義的三維模型檢索系統(tǒng)和方法
- 一種計(jì)算機(jī)語(yǔ)義工程系統(tǒng)
- 導(dǎo)航方法及裝置
- 一種分層次多語(yǔ)義網(wǎng)系統(tǒng)及方法
- 一種基于上下文的語(yǔ)義匹配方法和系統(tǒng)
- 遠(yuǎn)程語(yǔ)義識(shí)別方法、裝置、設(shè)備及計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)
- 一種基于語(yǔ)義依存關(guān)系的醫(yī)療文本標(biāo)注方法
- 基于多級(jí)語(yǔ)義表征和語(yǔ)義計(jì)算的信號(hào)語(yǔ)義識(shí)別方法
- 語(yǔ)義分類方法及裝置、存儲(chǔ)介質(zhì)及電子設(shè)備





