[發明專利]用于生成圖像描述信息的方法和裝置在審
| 申請號: | 202010455871.8 | 申請日: | 2020-05-26 |
| 公開(公告)號: | CN111611420A | 公開(公告)日: | 2020-09-01 |
| 發明(設計)人: | 韓宏煒;張永華 | 申請(專利權)人: | 北京字節跳動網絡技術有限公司 |
| 主分類號: | G06F16/532 | 分類號: | G06F16/532;G06F16/58;G06F16/583;G06F16/55;G06N20/00 |
| 代理公司: | 北京海智友知識產權代理事務所(普通合伙) 11455 | 代理人: | 吳京順 |
| 地址: | 100041 北京市石景山區*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 用于 生成 圖像 描述 信息 方法 裝置 | ||
1.一種用于生成圖像描述信息的方法,包括:
獲取待描述圖像;
將所述待描述圖像輸入至預先訓練的圖像描述模型,生成圖像描述信息,其中,所述圖像描述模型用于表征圖像描述信息與待描述圖像之間的對應關系,所述圖像描述模型中包括基于注意力機制的圖表示網絡,所述圖表示網絡用于提取所述待描述圖像中的實例和實例之間的關系。
2.根據權利要求1所述的方法,其中,所述圖表示網絡的輸入包括:實例查詢向量、實例鍵向量、實例值向量、關系查詢向量、關系鍵向量、關系值向量、關系構建向量,其中,所述關系構建向量用于表征實例之間是否具備關系。
3.根據權利要求2所述的方法,其中,所述圖表示網絡的輸入還包括:門向量,其中,所述門向量用于表征圖像中各通道的特征。
4.根據權利要求3所述的方法,其中,所述關系包括以下至少一項:一對一關系,一對多關系。
5.根據權利要求1-4之一所述的方法,其中,所述圖像描述模型包括編碼網絡和解碼網絡,所述編碼網絡和解碼網絡分別包括所述圖表示網絡;以及
所述將所述待描述圖像輸入至預先訓練的圖像描述模型,生成圖像描述信息,包括:
基于所述待描述圖像提取特征,生成圖像特征表示,其中,所述圖像特征表示包括實例特征和關系特征;
將所述實例特征和關系特征輸入至所述包括圖表示網絡的編碼網絡,生成編碼向量;
基于將所述編碼向量輸入所述包括圖表示網絡的解碼網絡,生成所述圖像描述信息。
6.根據權利要求5所述的方法,其中,所述基于所述待描述圖像提取特征,生成圖像特征表示,包括:
將所述待描述圖像輸入預先訓練的特征提取網絡,生成初始特征表示;
將所述初始特征表示與預設的位置編碼進行結合,生成所述圖像特征表示。
7.根據權利要求6所述的方法,其中,所述位置編碼包括二維位置編碼。
8.一種用于生成圖像描述信息的裝置,包括:
獲取單元,被配置成獲取待描述圖像;
生成單元,被配置成將所述待描述圖像輸入至預先訓練的圖像描述模型,生成圖像描述信息,其中,所述圖像描述模型用于表征圖像描述信息與待描述圖像之間的對應關系,所述圖像描述模型中包括基于注意力機制的圖表示網絡,所述圖表示網絡用于提取所述待描述圖像中的實例和實例之間的關系。
9.一種電子設備,包括:
一個或多個處理器;
存儲裝置,其上存儲有一個或多個程序;
當所述一個或多個程序被所述一個或多個處理器執行,使得所述一個或多個處理器實現如權利要求1-7中任一所述的方法。
10.一種計算機可讀介質,其上存儲有計算機程序,其中,該程序被處理器執行時實現如權利要求1-7中任一所述的方法。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京字節跳動網絡技術有限公司,未經北京字節跳動網絡技術有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010455871.8/1.html,轉載請聲明來源鉆瓜專利網。
- 彩色圖像和單色圖像的圖像處理
- 圖像編碼/圖像解碼方法以及圖像編碼/圖像解碼裝置
- 圖像處理裝置、圖像形成裝置、圖像讀取裝置、圖像處理方法
- 圖像解密方法、圖像加密方法、圖像解密裝置、圖像加密裝置、圖像解密程序以及圖像加密程序
- 圖像解密方法、圖像加密方法、圖像解密裝置、圖像加密裝置、圖像解密程序以及圖像加密程序
- 圖像編碼方法、圖像解碼方法、圖像編碼裝置、圖像解碼裝置、圖像編碼程序以及圖像解碼程序
- 圖像編碼方法、圖像解碼方法、圖像編碼裝置、圖像解碼裝置、圖像編碼程序、以及圖像解碼程序
- 圖像形成設備、圖像形成系統和圖像形成方法
- 圖像編碼裝置、圖像編碼方法、圖像編碼程序、圖像解碼裝置、圖像解碼方法及圖像解碼程序
- 圖像編碼裝置、圖像編碼方法、圖像編碼程序、圖像解碼裝置、圖像解碼方法及圖像解碼程序





