[發明專利]基于生成對抗網絡的場景圖像生成方法和裝置在審
| 申請號: | 202011181870.5 | 申請日: | 2020-10-29 |
| 公開(公告)號: | CN112288831A | 公開(公告)日: | 2021-01-29 |
| 發明(設計)人: | 邢萌;于淼淼;李碩豪;石志強;楊朝紅;王青海;趙萌;金麗亞;畢建權;陳財森 | 申請(專利權)人: | 中國人民解放軍陸軍裝甲兵學院 |
| 主分類號: | G06T11/00 | 分類號: | G06T11/00;G06N3/08;G06N3/04;G06K9/62 |
| 代理公司: | 北京風雅頌專利代理有限公司 11403 | 代理人: | 曾志鵬 |
| 地址: | 100072*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 生成 對抗 網絡 場景 圖像 方法 裝置 | ||
本公開提供了基于生成對抗網絡的場景圖像生成方法和裝置。所述方法包括:獲取當前文本信息;提取所述當前文本信息中的文本特征;提取所述當前文本信息中的場景圖特征;對所述場景圖特征和文本特征進行特征融合,生成融合特征;將所述融合特征輸入到預先訓練的場景圖像生成模型中,生成對應的場景圖像。以此方式,能夠根據文本信息的描述生成場景圖像,使得生成的場景圖像與真實的場景圖像更接近,能夠有效描述了場景圖像中對象之間的位置關系。
技術領域
本公開的實施例一般涉及人工智能技術領域,并且更具體地,涉及基于生成對抗網絡的場景圖像生成方法和裝置。
背景技術
隨著圖形繪制技術、數字信號處理技術、傳感技術、圖形技術的發展,虛擬現實的研究日益廣泛,即利用計算機生成逼真的圖像等,使得用戶可以在虛擬環境中實現交互和控制。在內容創建、智能編輯方面,很多軟件可以改變圖像的表情、皺紋等,這對高質量、多樣性的圖像生成技術提出很大需求。同時在許多對信息安全要求較高的公司(如信用卡公司),需要構建虛擬欺詐數據、圖像等來提高欺詐檢測系統,這也屬于數據增強的應用。人們對生成圖像的要求越來越高。但是利用計算機從數據中學習生成高保真、高分辨率、多樣化的圖像仍然是很大的挑戰。
近年來,生成圖像建模領域涌現了很多成果。2014年lan Goodfellow創造性地提出了基于深度學習的生成對抗網絡(Generative Adversarial Network,GAN),目前GAN已經成為首選和最前沿的生成模型之一。雖然現有技術中能夠生成高質量的圖像,但是細節效果太差,尤其對于場景圖像,通過模型生成的場景圖像與實際的場景圖像間的誤差較大,不利于利用計算機生成場景圖像的推廣和應用。
發明內容
根據本公開的實施例,提供了一種能夠根據文本信息的描述生成場景圖像的方法,使得生成的場景圖像與真實的場景圖像更接近,并且能夠有效描述了場景圖像中對象之間的位置關系。
在本公開的第一方面,提供了一種基于生成對抗網絡的場景圖像生成方法,包括:
獲取當前文本信息;
提取所述當前文本信息中的文本特征;
提取所述當前文本信息中的場景圖特征;
對所述場景圖特征和文本特征進行特征融合,生成融合特征;
將所述融合特征輸入到預先訓練的場景圖像生成模型中,生成對應的場景圖像。
在一些實施例中,在所述獲取當前文本信息后,還包括:
對所述當前文本信息進行預處理,具體包括:將簡寫轉為全寫,和/或將大寫字母轉為小寫字母,和/或將單詞映射為數值。
在一些實施例中,所述提取所述當前文本信息中的文本特征,包括:
使用詞向量模型Skip-Gram來表達單詞,將每個單詞映射到高維空間中,生成詞向量,對所述詞向量進行非線性變換,生成與所述文本信息對應的高維句子特征向量,并對所述高緯句子特征向量進行重要性加權處理,生成所述當前文本信息中的文本特征。
在一些實施例中,提取所述當前文本信息中的場景圖特征,包括:
將所述當前文本信息轉換成場景圖,場景圖是一種數據結構,其中每個節點代表一個對象,連接對象之間的邊代表所屬關系,使用詞嵌入技術Skip-Gram網絡將場景圖中的所有對象以及對象之間的所屬關系轉換為嵌入向量。
在一些實施例中,還包括:
利用圖注意網絡提取所述嵌入向量的對象與對象之間的注意力系數,
定義為:
wij=δ(f[Oi,Rk,Oj])
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中國人民解放軍陸軍裝甲兵學院,未經中國人民解放軍陸軍裝甲兵學院許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011181870.5/2.html,轉載請聲明來源鉆瓜專利網。





