[發(fā)明專利]用布局變換器進(jìn)行神經(jīng)圖像合成在審
| 申請(qǐng)?zhí)枺?/td> | 202211538478.0 | 申請(qǐng)日: | 2022-12-01 |
| 公開(公告)號(hào): | CN116664720A | 公開(公告)日: | 2023-08-29 |
| 發(fā)明(設(shè)計(jì))人: | K·C·圖古特魯;S·沙瑪;J·庫瑪;R·M·多德勒;V·達(dá)拉爾 | 申請(qǐng)(專利權(quán))人: | 奧多比公司 |
| 主分類號(hào): | G06T11/60 | 分類號(hào): | G06T11/60;G06V20/70;G06V20/00;G06V10/82;G06V10/26;G06N3/0455;G06N3/0464;G06N3/0475;G06N3/048;G06N3/0895;G06N3/084 |
| 代理公司: | 北京市金杜律師事務(wù)所 11256 | 代理人: | 丁君軍 |
| 地址: | 美國加利*** | 國省代碼: | 暫無信息 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 布局 變換器 進(jìn)行 神經(jīng) 圖像 合成 | ||
本公開的一些實(shí)施例涉及用布局變換器進(jìn)行神經(jīng)圖像合成。描述了用于圖像處理的系統(tǒng)和方法。本公開的實(shí)施例接收描繪對(duì)象的圖像;生成標(biāo)記(token)序列,該標(biāo)記序列包括與對(duì)象相對(duì)應(yīng)的標(biāo)記集合和與要被插入圖像中的附加對(duì)象相對(duì)應(yīng)的掩碼標(biāo)記集合;使用序列編碼器基于標(biāo)記序列針對(duì)掩碼標(biāo)記集合生成放置標(biāo)記值,其中放置標(biāo)記值表示附加對(duì)象的位置信息;以及基于位置信息將附加對(duì)象插入圖像中以獲取合成圖像。
背景技術(shù)
以下內(nèi)容總體上涉及圖像處理,并且更具體地涉及使用機(jī)器學(xué)習(xí)的圖像生成。
數(shù)字圖像處理是指使用計(jì)算機(jī)編輯數(shù)字圖像或使用算法或處理網(wǎng)絡(luò)合成圖像。圖像生成是圖像處理中的子領(lǐng)域。在一些示例中,對(duì)象插入基于針對(duì)要被插入圖像中的附加對(duì)象創(chuàng)建準(zhǔn)確掩碼(mask)。掩碼可以使用諸如Photoshop等圖像編輯工具來混合。在某些情況下,機(jī)器學(xué)習(xí)框架可以獲取原始圖像和目標(biāo)對(duì)象,并且輸出包括目標(biāo)對(duì)象的合成圖像。
然而,常規(guī)的圖像生成網(wǎng)絡(luò)不能以適當(dāng)位置、尺度(scale)、和諧度(harmony)等在圖像內(nèi)執(zhí)行對(duì)象插入。生成的圖像通??雌饋聿徽鎸?shí)并且需要來自用戶的大量手動(dòng)編輯。因此,本領(lǐng)域需要改進(jìn)的圖像生成系統(tǒng),該系統(tǒng)可以在圖像內(nèi)高效且準(zhǔn)確地執(zhí)行對(duì)象插入。
發(fā)明內(nèi)容
本公開描述了用于圖像生成的系統(tǒng)和方法。本公開的實(shí)施例包括一種被配置為將新對(duì)象插入圖像中以獲取合成圖像的圖像生成裝置。序列的編碼器用于按順序地確定不同信息片段,例如新對(duì)象的分類、x坐標(biāo)、y坐標(biāo)、高度和寬度。這使得插入的對(duì)象能夠在圖像內(nèi)適當(dāng)?shù)胤胖煤涂s放(scale)。在一些實(shí)施例中,圖像生成裝置的序列生成組件生成標(biāo)記(token)序列(sequence),該標(biāo)記序列包括與現(xiàn)有對(duì)象相對(duì)應(yīng)的標(biāo)記集合和與要被插入圖像中的新對(duì)象相對(duì)應(yīng)的掩碼標(biāo)記集合。圖像生成裝置的序列編碼器基于標(biāo)記序列針對(duì)掩碼標(biāo)記集合生成放置標(biāo)記值。放置標(biāo)記值表示新對(duì)象的位置信息(例如,坐標(biāo)、位置、尺度)。圖像生成裝置基于位置信息將新對(duì)象插入圖像中以獲取合成圖像。
描述了一種用于圖像生成的方法、裝置和非暫態(tài)計(jì)算機(jī)可讀介質(zhì)。該方法、裝置和非暫態(tài)計(jì)算機(jī)可讀介質(zhì)的一個(gè)或多個(gè)實(shí)施例包括接收描繪對(duì)象的圖像;生成標(biāo)記序列,該標(biāo)記序列包括與對(duì)象相對(duì)應(yīng)的標(biāo)記集合和與要被插入圖像中的附加對(duì)象相對(duì)應(yīng)的掩碼標(biāo)記集合;使用序列編碼器基于標(biāo)記序列針對(duì)掩碼標(biāo)記集合生成放置標(biāo)記值,其中放置標(biāo)記值表示附加對(duì)象的位置信息;以及基于位置信息將附加對(duì)象插入圖像中以獲取合成圖像。
描述了一種用于訓(xùn)練神經(jīng)網(wǎng)絡(luò)的方法、裝置和非暫態(tài)計(jì)算機(jī)可讀介質(zhì)。該方法、裝置和非暫態(tài)計(jì)算機(jī)可讀介質(zhì)的一個(gè)或多個(gè)實(shí)施例包括接收訓(xùn)練數(shù)據(jù),該訓(xùn)練數(shù)據(jù)包括描繪對(duì)象的圖像和關(guān)于附加對(duì)象的地面真值(ground?truth)信息;生成標(biāo)記序列,該標(biāo)記序列包括與對(duì)象相對(duì)應(yīng)的標(biāo)記集合和與附加對(duì)象相對(duì)應(yīng)的掩碼標(biāo)記集合;使用序列編碼器基于標(biāo)記序列針對(duì)掩碼標(biāo)記集合生成放置標(biāo)記值,其中放置標(biāo)記值表示附加對(duì)象的位置信息;將放置標(biāo)記值與地面真值信息進(jìn)行比較;以及基于放置標(biāo)記值與地面真值信息的比較,更新序列編碼器的參數(shù)。
描述了一種用于圖像生成的裝置和方法。該裝置和方法的一個(gè)或多個(gè)實(shí)施例包括:被配置為生成標(biāo)記序列的序列生成組件,該標(biāo)記序列包括與圖像中的對(duì)象相對(duì)應(yīng)的標(biāo)記集合和與要被插入圖像中的附加對(duì)象相對(duì)應(yīng)的掩碼標(biāo)記集合;被配置為基于標(biāo)記序列針對(duì)掩碼標(biāo)記集合生成放置標(biāo)記值的序列編碼器,其中放置標(biāo)記值表示附加對(duì)象的位置信息;以及被配置為基于位置信息將附加對(duì)象插入圖像中以獲取合成圖像的圖像生成組件。
附圖說明
圖1示出了根據(jù)本公開的方面的圖像生成的示例;
圖2示出了根據(jù)本公開的方面的將多個(gè)對(duì)象插入圖像中的示例;
圖3示出了根據(jù)本公開的方面的在不同位置插入對(duì)象的示例;
圖4示出了根據(jù)本公開的方面的生成合成圖像的示例;
圖5示出了根據(jù)本公開的方面的生成標(biāo)記序列的示例;
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于奧多比公司,未經(jīng)奧多比公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202211538478.0/2.html,轉(zhuǎn)載請(qǐng)聲明來源鉆瓜專利網(wǎng)。
- 請(qǐng)求沒有進(jìn)行IMS注冊(cè)的用戶進(jìn)行注冊(cè)的方法
- 對(duì)要進(jìn)行紋理操作的像素進(jìn)行分組
- 對(duì)餐盤進(jìn)行溫度調(diào)節(jié)和進(jìn)行分配的獨(dú)立小車
- 對(duì)圖像進(jìn)行編碼
- 對(duì)任務(wù)進(jìn)行調(diào)度
- 對(duì)任務(wù)進(jìn)行調(diào)度
- 蛋糕(甜蜜進(jìn)行時(shí))
- 對(duì)定位輔助數(shù)據(jù)進(jìn)行分級(jí)和分組以進(jìn)行廣播
- 對(duì)物體進(jìn)行分離和定向以進(jìn)行供料
- 對(duì)工件進(jìn)行評(píng)價(jià)以進(jìn)行加工的方法
- 用于治療支氣管樹的系統(tǒng)、組件和方法
- 一種頸部神經(jīng)信號(hào)記錄方法
- 用于在激活褐色脂肪組織時(shí)抑制神經(jīng)的方法和裝置
- 一種神經(jīng)元硬件裝置及用這種裝置模擬脈沖神經(jīng)網(wǎng)絡(luò)的方法
- 神經(jīng)移植物及應(yīng)用其的神經(jīng)移植物系統(tǒng)
- 一種神經(jīng)疏通緩解裝置
- 神經(jīng)移植物及應(yīng)用其的神經(jīng)移植物系統(tǒng)
- 一種模擬神經(jīng)網(wǎng)芯片的設(shè)計(jì)方法及模擬神經(jīng)網(wǎng)芯片
- 神經(jīng)網(wǎng)絡(luò)的剪枝方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)
- 一套無人機(jī)神經(jīng)網(wǎng)絡(luò)控制用的人工神經(jīng)元模型





