[發明專利]一種基于多輔助信息下的圖像生成方法在審
| 申請號: | 202110301738.1 | 申請日: | 2021-03-22 |
| 公開(公告)號: | CN113052784A | 公開(公告)日: | 2021-06-29 |
| 發明(設計)人: | 牛學碩;尹寶才;孔雨秋 | 申請(專利權)人: | 大連理工大學 |
| 主分類號: | G06T5/50 | 分類號: | G06T5/50;G06K9/62;G06N3/04;G06N3/08 |
| 代理公司: | 大連理工大學專利中心 21200 | 代理人: | 溫福雪 |
| 地址: | 116024 遼*** | 國省代碼: | 遼寧;21 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 輔助 信息 圖像 生成 方法 | ||
1.一種基于多輔助信息下的圖像生成方法,其特征在于,步驟如下:
步驟S1:提取COCO數據集,根據每張圖像的標注信息,提取每張圖像的場景圖,得到場景圖數據的訓練集;借助圖像的標注信息,將圖像對應的文本信息提取,得到對應的文本信息訓練集;
步驟S11:首先將場景圖中的對象和關系進行初始化嵌入,得到對象初始矩陣和關系初始矩陣,然后將初始化嵌入輸入到GCN網絡中,得到更新后的對象矩陣和關系矩陣,實現場景圖信息的嵌入,得到場景圖向量矩陣;GCN網絡由五層卷積塊堆疊而成,每個卷積塊都由全連接層、Relu層、全連接層、Relu層組成;
步驟S12:對于得到的文本信息,通過使用char-CNN-RNN text encoder模型進行文字嵌入,該模型由兩部分組成:用于圖像特征提取的ConvAutoencoder和用于獲得文本嵌入的CharEmbedding;最終輸出為包含圖像信息的文本嵌入向量;
步驟S2:第一階段的模型結構,主體結構為生成式對抗網絡GAN,包括生成器和判別器;將得到的場景圖向量矩陣和文本嵌入向量進行特征融合,得到融合特征;生成器將融合特征通過全連接層來生成高斯分布進而得到條件變量,然后與隨機噪聲拼接作為生成器輸入,最終通過一組上采樣層生成圖像;判別器對文本嵌入向量進行壓縮,進行空間性重復,得到特征tensor,同時將生成器生成的圖像輸入到下采樣層,得到圖像tensor,最后將特征tensor和圖像tensor輸入到卷積層,經過一個單節點的全連接層得到置信度得分;
步驟S21:實現場景圖信息和文本信息的融合,以場景圖信息為主,文本信息為輔;將文本信息經過一個缺少節點的全連接層,保留部分的文本信息,與場景圖信息進行拼接;
步驟S22:從高斯分布中隨機采樣得到條件變量與隨機采樣的噪聲z進行拼接,作為輸入來訓練生成器G0和判別器D0,目標函數如下:
其中,真實圖像I0和特征輸入t源自實際數據分布pdata,pz指標準正態分布,是通過預編碼器得到的詞嵌入向量,z表示從pz中隨機提取的噪聲,μ0和∑0是通過全連接層生成高斯分布得到的,λ為正則化參數;
步驟S3:第二階段的網絡模型同樣以GAN作為主體,由生成器和判別器組成,模型輸入為文本嵌入向量和第一階段生成的圖像,該階段注重對文本信息的使用,生成高分辨率的圖像;判別器和第一階段的判別器結構大體一致,只是在輸入尺寸上卷積層步長變為原來的2倍,進而導致下采樣層發生變化,由3*3變為4*4;生成器上則將文本嵌入向量通過全連接層來生成高斯分布進而得到條件變量,然后進行空間性重復得到特征tensor,同時將第一階段的輸出通過下采樣,得到1*1的特征tensor,將兩個特征tensor進行拼接,經過一系列殘差塊,通過上采樣的處理得到圖像;
步驟S31:每張圖像的文本描述有多個,所以得到的文本嵌入向量有多個,每次訓練都選擇其中一個文本嵌入向量與第一階段生成的圖像作為第二階段生成器的輸入;判別器則保留置信度得分最高的圖像作為最終圖像;
步驟S32:第二階段的高斯隱含變量以及第一階段的生成器輸出為輸入,來訓練生成器G1和判別器D1,其目標函數分別為:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于大連理工大學,未經大連理工大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110301738.1/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:顯示面板及其驅動方法、顯示裝置
- 下一篇:脫盒機
- 信息記錄介質、信息記錄方法、信息記錄設備、信息再現方法和信息再現設備
- 信息記錄裝置、信息記錄方法、信息記錄介質、信息復制裝置和信息復制方法
- 信息記錄裝置、信息再現裝置、信息記錄方法、信息再現方法、信息記錄程序、信息再現程序、以及信息記錄介質
- 信息記錄裝置、信息再現裝置、信息記錄方法、信息再現方法、信息記錄程序、信息再現程序、以及信息記錄介質
- 信息記錄設備、信息重放設備、信息記錄方法、信息重放方法、以及信息記錄介質
- 信息存儲介質、信息記錄方法、信息重放方法、信息記錄設備、以及信息重放設備
- 信息存儲介質、信息記錄方法、信息回放方法、信息記錄設備和信息回放設備
- 信息記錄介質、信息記錄方法、信息記錄裝置、信息再現方法和信息再現裝置
- 信息終端,信息終端的信息呈現方法和信息呈現程序
- 信息創建、信息發送方法及信息創建、信息發送裝置
- 彩色圖像和單色圖像的圖像處理
- 圖像編碼/圖像解碼方法以及圖像編碼/圖像解碼裝置
- 圖像處理裝置、圖像形成裝置、圖像讀取裝置、圖像處理方法
- 圖像解密方法、圖像加密方法、圖像解密裝置、圖像加密裝置、圖像解密程序以及圖像加密程序
- 圖像解密方法、圖像加密方法、圖像解密裝置、圖像加密裝置、圖像解密程序以及圖像加密程序
- 圖像編碼方法、圖像解碼方法、圖像編碼裝置、圖像解碼裝置、圖像編碼程序以及圖像解碼程序
- 圖像編碼方法、圖像解碼方法、圖像編碼裝置、圖像解碼裝置、圖像編碼程序、以及圖像解碼程序
- 圖像形成設備、圖像形成系統和圖像形成方法
- 圖像編碼裝置、圖像編碼方法、圖像編碼程序、圖像解碼裝置、圖像解碼方法及圖像解碼程序
- 圖像編碼裝置、圖像編碼方法、圖像編碼程序、圖像解碼裝置、圖像解碼方法及圖像解碼程序





