[發(fā)明專利]用于生成圖像描述信息的方法和裝置在審
| 申請?zhí)枺?/td> | 202010455871.8 | 申請日: | 2020-05-26 |
| 公開(公告)號: | CN111611420A | 公開(公告)日: | 2020-09-01 |
| 發(fā)明(設(shè)計)人: | 韓宏煒;張永華 | 申請(專利權(quán))人: | 北京字節(jié)跳動網(wǎng)絡(luò)技術(shù)有限公司 |
| 主分類號: | G06F16/532 | 分類號: | G06F16/532;G06F16/58;G06F16/583;G06F16/55;G06N20/00 |
| 代理公司: | 北京海智友知識產(chǎn)權(quán)代理事務(wù)所(普通合伙) 11455 | 代理人: | 吳京順 |
| 地址: | 100041 北京市石景山區(qū)*** | 國省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 用于 生成 圖像 描述 信息 方法 裝置 | ||
本申請實施例公開了用于生成圖像描述信息的方法和裝置。該方法的一具體實施方式包括:獲取待描述圖像;將該待描述圖像輸入至預(yù)先訓(xùn)練的圖像描述模型,生成圖像描述信息,其中,該圖像描述模型用于表征圖像描述信息與待描述圖像之間的對應(yīng)關(guān)系,該圖像描述模型中包括基于注意力機(jī)制的圖表示網(wǎng)絡(luò),該圖表示網(wǎng)絡(luò)用于提取該待描述圖像中的實例和實例之間的關(guān)系。該實施方式有效地利用了圖像中所包括的位置信息,有助于更準(zhǔn)確地生成圖像描述信息。
技術(shù)領(lǐng)域
本申請實施例涉及計算機(jī)技術(shù)領(lǐng)域,具體涉及用于生成圖像描述信息的方法和裝置。
背景技術(shù)
隨著人工智能技術(shù)的飛速發(fā)展,圖像描述(image caption)任務(wù)也取得了越來越多的應(yīng)用。
相關(guān)的方式通常包括利用不同的感受野(Receptive Field)從圖像中提取實例(instance),進(jìn)而根據(jù)圖像語義信息確定位置,從而生成圖像描述信息。
發(fā)明內(nèi)容
本申請實施例提出了用于生成圖像描述信息的方法和裝置。
第一方面,本申請實施例提供了一種用于生成圖像描述信息的方法,該方法包括:獲取待描述圖像;將待描述圖像輸入至預(yù)先訓(xùn)練的圖像描述模型,生成圖像描述信息,其中,圖像描述模型用于表征圖像描述信息與待描述圖像之間的對應(yīng)關(guān)系,圖像描述模型中包括基于注意力機(jī)制(attention)的圖表示網(wǎng)絡(luò),圖表示網(wǎng)絡(luò)用于提取待描述圖像中的實例和實例之間的關(guān)系(translation)。
在一些實施例中,上述圖表示網(wǎng)絡(luò)的輸入包括:實例查詢向量、實例鍵向量、實例值向量、關(guān)系查詢向量、關(guān)系鍵向量、關(guān)系值向量、關(guān)系構(gòu)建向量,其中,上述關(guān)系構(gòu)建向量用于表征實例之間是否具備關(guān)系。
在一些實施例中,上述圖表示網(wǎng)絡(luò)的輸入還包括:門向量,其中,上述門向量用于表征圖像中各通道的特征。
在一些實施例中,上述關(guān)系包括以下至少一項:一對一關(guān)系,一對多關(guān)系。
在一些實施例中,上述圖像描述模型包括編碼網(wǎng)絡(luò)和解碼網(wǎng)絡(luò),上述編碼網(wǎng)絡(luò)和解碼網(wǎng)絡(luò)分別包括上述圖表示網(wǎng)絡(luò);以及上述將待描述圖像輸入至預(yù)先訓(xùn)練的圖像描述模型,生成圖像描述信息,包括:基于待描述圖像提取特征,生成圖像特征表示,其中,圖像特征表示包括實例特征和關(guān)系特征;將實例特征和關(guān)系特征輸入至包括圖表示網(wǎng)絡(luò)的編碼網(wǎng)絡(luò),生成編碼向量;基于將編碼向量輸入包括圖表示網(wǎng)絡(luò)的解碼網(wǎng)絡(luò),生成圖像描述信息。
在一些實施例中,上述基于待描述圖像提取特征,生成圖像特征表示,包括:將待描述圖像輸入預(yù)先訓(xùn)練的特征提取網(wǎng)絡(luò),生成初始特征表示;將初始特征表示與預(yù)設(shè)的位置編碼進(jìn)行結(jié)合,生成圖像特征表示。
在一些實施例中,上述位置編碼包括二維位置編碼。
第二方面,本申請實施例提供了一種用于生成圖像描述信息的裝置,該裝置包括:獲取單元,被配置成獲取待描述圖像;生成單元,被配置成將待描述圖像輸入至預(yù)先訓(xùn)練的圖像描述模型,生成圖像描述信息,其中,圖像描述模型用于表征圖像描述信息與待描述圖像之間的對應(yīng)關(guān)系,圖像描述模型中包括基于注意力機(jī)制的圖表示網(wǎng)絡(luò),圖表示網(wǎng)絡(luò)用于提取待描述圖像中的實例和實例之間的關(guān)系。
在一些實施例中,上述圖表示網(wǎng)絡(luò)的輸入包括:實例查詢向量、實例鍵向量、實例值向量、關(guān)系查詢向量、關(guān)系鍵向量、關(guān)系值向量、關(guān)系構(gòu)建向量,其中,上述關(guān)系構(gòu)建向量用于表征實例之間是否具備關(guān)系。
在一些實施例中,上述圖表示網(wǎng)絡(luò)的輸入還包括:門向量,其中,上述門向量用于表征圖像中各通道的特征。
在一些實施例中,上述關(guān)系包括以下至少一項:一對一關(guān)系,一對多關(guān)系。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于北京字節(jié)跳動網(wǎng)絡(luò)技術(shù)有限公司,未經(jīng)北京字節(jié)跳動網(wǎng)絡(luò)技術(shù)有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010455871.8/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 彩色圖像和單色圖像的圖像處理
- 圖像編碼/圖像解碼方法以及圖像編碼/圖像解碼裝置
- 圖像處理裝置、圖像形成裝置、圖像讀取裝置、圖像處理方法
- 圖像解密方法、圖像加密方法、圖像解密裝置、圖像加密裝置、圖像解密程序以及圖像加密程序
- 圖像解密方法、圖像加密方法、圖像解密裝置、圖像加密裝置、圖像解密程序以及圖像加密程序
- 圖像編碼方法、圖像解碼方法、圖像編碼裝置、圖像解碼裝置、圖像編碼程序以及圖像解碼程序
- 圖像編碼方法、圖像解碼方法、圖像編碼裝置、圖像解碼裝置、圖像編碼程序、以及圖像解碼程序
- 圖像形成設(shè)備、圖像形成系統(tǒng)和圖像形成方法
- 圖像編碼裝置、圖像編碼方法、圖像編碼程序、圖像解碼裝置、圖像解碼方法及圖像解碼程序
- 圖像編碼裝置、圖像編碼方法、圖像編碼程序、圖像解碼裝置、圖像解碼方法及圖像解碼程序





