[發明專利]一種基于多輔助信息下的圖像生成方法在審
| 申請號: | 202110301738.1 | 申請日: | 2021-03-22 |
| 公開(公告)號: | CN113052784A | 公開(公告)日: | 2021-06-29 |
| 發明(設計)人: | 牛學碩;尹寶才;孔雨秋 | 申請(專利權)人: | 大連理工大學 |
| 主分類號: | G06T5/50 | 分類號: | G06T5/50;G06K9/62;G06N3/04;G06N3/08 |
| 代理公司: | 大連理工大學專利中心 21200 | 代理人: | 溫福雪 |
| 地址: | 116024 遼*** | 國省代碼: | 遼寧;21 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 輔助 信息 圖像 生成 方法 | ||
本發明屬于計算機視覺任務下的圖像生成領域,提供一種基于多輔助信息下的圖像生成方法。本發明首次利用了多種輔助信息指導模型完成圖像生成任務,該生成任務分兩階段完成,在第一階段模型的輸入為場景圖信息和文本信息的融合特征,以場景圖信息為主,文本信息為輔,以GAN網絡模型為原型進行圖像生成,生成粗略的圖像;第二階段的模型輸入為文本信息和第一階段的輸出,目的是通過使用文本信息豐富圖像細節,生成高質量的圖像。本發明通過使用真實數據集進行訓練并評估,同時與目前主流的圖像生成模型做對比,評估其性能提升。
技術領域
本發明屬于計算機視覺任務下的圖像生成領域,涉及一種基于多種輔助信息參與下指導圖像生成的方法。
背景技術
在日常生產和生活中,這樣的場景隨處可見:海報設計師不能很好的理解客戶的描述,導致客戶和海報設計師之間進行長時間的無效溝通,效率低下;案發現場的目擊證人會描述出嫌疑人的模樣,公安機關需要根據目擊證人的描述得到嫌疑人的模樣并進行破案;在房屋裝修時,根據業主的描述,如果能夠快速看到裝修結果圖,業主對裝修方案的滿意度也會大大提升。一直以來,人們對審美的要求很多時候都追求圖文并茂,圖像能夠從視覺上給人沖擊,展現出文字所不能描述的含義,文字則能從語義層面,用華麗的詞藻展現出感官不能感受的文字美麗。只有圖文共同出現時,才能從不同的角度呈現出一個場景的全方位的解讀。但是在實際生活場景中,很容易獲得文字數據、語音數據,在一定程度上比較難獲得圖像數據,因此,如何在人工智能不斷取得新成果的背景下,利用新興技術的技術形式來展現文字描述的畫面,是一個促進生產、提高生活質量的重要研究方向。近些年,機器學習和深度學習不斷的發展并在實際應用中取得了較多的成果,各領域不斷的進度使得多模態學習的探索和應用也逐步成為人工智能的熱點。所謂的多模態學習,即將多模態信息進行融合、映射、遷移、學習等,目前學術領域研究最廣泛的是圖像和文字之間的交互,比如將一段文字作為輸入,輸出則是文字對應的圖像。根據文本生成圖像是多模態學習任務中一個常見的應用,該項研究將會給數據智能領域帶來很大的推動力,其落地也會給生產和生活帶來極大的便利。
目前主流的圖像生成方法,僅采用了單一的信息參與模型的訓練過程。例如,sg2im模型以場景圖(scenegraph)信息作為模型的輸入,指導進行圖像生成;stackGAN,attnGAN等主流模型以文本描述去指導模型生成符合要求的圖像。sg2im提出了通過scenegraph來建模文本中各對象及其關系,在獲得scene graph的基礎上對語義中的每個對象得到其bounding box和mask進而得到一個關于文本語義的scene layout,然后以此scenelayout作為輸入加入到后續的GAN網絡中生成圖片。stackGAN使用了兩個GAN來分步生成圖像。因為單純在網絡中增加up sampling并不能提升生成圖片的質量,所以提出了這樣一個分兩階段的GAN網絡,第一階段用于生成低精度(64x64)的圖像,該階段主要關注圖像的背景,顏色及輪廓等基本信息;在第二階段中將第一階段的輸出作為輸入同時再次使用textembedding,從而獲得了第一階段丟失的細節信息,進而生成了256x256的更精細圖片。同時在該方法中還加入了CA(Conditioning Augmentation)模塊來對文本特征加入一些實用的隨機噪聲,從而使得生成圖像具有更多的可變性。attnGAN增加了注意力機制,不僅提取文本的sentence feature作為全局約束,同時也將attention精確到word級別提取了wordembedding作為局部約束送入網絡,生成器與鑒別器每次針對word embedding部分精準優化,從而使得生成圖像更能突出文本中的細節。
發明內容
本發明的提出的方法是基于多種輔助信息的圖像生成,通過提取多種信息的特征并融合,充分利用所有的輔助信息,使得生成的圖像盡可能真實還原。本方法以場景圖和文本描述信息為例進行研究內容介紹。
任務的研究目標有兩個重要方面:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于大連理工大學,未經大連理工大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110301738.1/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:顯示面板及其驅動方法、顯示裝置
- 下一篇:脫盒機
- 信息記錄介質、信息記錄方法、信息記錄設備、信息再現方法和信息再現設備
- 信息記錄裝置、信息記錄方法、信息記錄介質、信息復制裝置和信息復制方法
- 信息記錄裝置、信息再現裝置、信息記錄方法、信息再現方法、信息記錄程序、信息再現程序、以及信息記錄介質
- 信息記錄裝置、信息再現裝置、信息記錄方法、信息再現方法、信息記錄程序、信息再現程序、以及信息記錄介質
- 信息記錄設備、信息重放設備、信息記錄方法、信息重放方法、以及信息記錄介質
- 信息存儲介質、信息記錄方法、信息重放方法、信息記錄設備、以及信息重放設備
- 信息存儲介質、信息記錄方法、信息回放方法、信息記錄設備和信息回放設備
- 信息記錄介質、信息記錄方法、信息記錄裝置、信息再現方法和信息再現裝置
- 信息終端,信息終端的信息呈現方法和信息呈現程序
- 信息創建、信息發送方法及信息創建、信息發送裝置
- 彩色圖像和單色圖像的圖像處理
- 圖像編碼/圖像解碼方法以及圖像編碼/圖像解碼裝置
- 圖像處理裝置、圖像形成裝置、圖像讀取裝置、圖像處理方法
- 圖像解密方法、圖像加密方法、圖像解密裝置、圖像加密裝置、圖像解密程序以及圖像加密程序
- 圖像解密方法、圖像加密方法、圖像解密裝置、圖像加密裝置、圖像解密程序以及圖像加密程序
- 圖像編碼方法、圖像解碼方法、圖像編碼裝置、圖像解碼裝置、圖像編碼程序以及圖像解碼程序
- 圖像編碼方法、圖像解碼方法、圖像編碼裝置、圖像解碼裝置、圖像編碼程序、以及圖像解碼程序
- 圖像形成設備、圖像形成系統和圖像形成方法
- 圖像編碼裝置、圖像編碼方法、圖像編碼程序、圖像解碼裝置、圖像解碼方法及圖像解碼程序
- 圖像編碼裝置、圖像編碼方法、圖像編碼程序、圖像解碼裝置、圖像解碼方法及圖像解碼程序





