[發明專利]用布局變換器進行神經圖像合成在審
| 申請號: | 202211538478.0 | 申請日: | 2022-12-01 |
| 公開(公告)號: | CN116664720A | 公開(公告)日: | 2023-08-29 |
| 發明(設計)人: | K·C·圖古特魯;S·沙瑪;J·庫瑪;R·M·多德勒;V·達拉爾 | 申請(專利權)人: | 奧多比公司 |
| 主分類號: | G06T11/60 | 分類號: | G06T11/60;G06V20/70;G06V20/00;G06V10/82;G06V10/26;G06N3/0455;G06N3/0464;G06N3/0475;G06N3/048;G06N3/0895;G06N3/084 |
| 代理公司: | 北京市金杜律師事務所 11256 | 代理人: | 丁君軍 |
| 地址: | 美國加利*** | 國省代碼: | 暫無信息 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 布局 變換器 進行 神經 圖像 合成 | ||
1.一種用于圖像處理的方法,包括:
接收描繪對象的圖像;
生成標記序列,所述標記序列包括與所述對象相對應的標記集合和與要被插入所述圖像中的附加對象相對應的掩碼標記集合;
使用序列編碼器基于所述標記序列針對所述掩碼標記集合生成放置標記值,其中所述放置標記值表示所述附加對象的位置信息;以及
基于所述位置信息將所述附加對象插入所述圖像中以獲取合成圖像。
2.根據權利要求1所述的方法,還包括:
標識與所述對象相對應的邊界框;以及
基于所述邊界框生成表示所述對象的位置信息的一個或多個放置標記,其中所述標記集合包括所述一個或多個放置標記。
3.根據權利要求2所述的方法,其中:
所述一個或多個放置標記包括寬度標記和高度標記。
4.根據權利要求1所述的方法,還包括:
檢測所述對象的類,其中所述標記集合包括表示所述類的類標記。
5.根據權利要求1所述的方法,還包括:
標識針對所述掩碼標記集合中的類掩碼標記的類標記值,其中所述放置標記值基于所述類標記值而被生成。
6.根據權利要求5所述的方法,還包括:
基于所述類標記值標識所述附加對象的語義類別;以及
基于所述語義類別針對所述附加對象選擇附加對象掩碼,其中所述附加對象基于所述附加對象掩碼被插入所述圖像中。
7.根據權利要求1所述的方法,還包括:
基于所述放置標記值針對所述掩碼標記集合生成附加放置標記值。
8.根據權利要求1所述的方法,還包括:
標識所述圖像中的多個對象,其中所述標記序列包括針對所述多個對象中的每個對象的對應標記集合。
9.根據權利要求8所述的方法,還包括:
生成所述圖像的場景圖,其中所述多個對象基于所述場景圖而被標識。
10.根據權利要求1所述的方法,還包括:
生成備選標記序列,所述備選標記序列包括與所述對象相對應的所述標記集合和位于與所述標記序列中的所述掩碼標記集合不同的位置處的所述掩碼標記集合;以及
針對所述標記序列生成第一似然分數并且針對所述備選標記序列生成第二似然分數,其中所述附加對象基于所述第一似然分數和所述第二似然分數被插入。
11.根據權利要求1所述的方法,還包括:
基于所述放置標記值標識針對所述附加對象的坐標,其中所述附加對象在所標識的所述坐標處被插入。
12.根據權利要求1所述的方法,還包括:
基于所述放置標記值標識所述附加對象的尺度,其中所述附加對象以所標識的所述尺度被插入。
13.根據權利要求1所述的方法,還包括:
將所述圖像劃分為網格;以及
向所述網格的每個元素分配唯一值,其中所述放置標記值對應于所述網格的元素的所述唯一值。
14.一種用于訓練神經網絡的方法,包括:
接收訓練數據,所述訓練數據包括描繪對象的圖像和關于附加對象的地面真值信息;
生成標記序列,所述標記序列包括與所述對象相對應的標記集合和與所述附加對象相對應的掩碼標記集合;
使用序列編碼器基于所述標記序列針對所述掩碼標記集合生成放置標記值,其中所述放置標記值表示所述附加對象的位置信息;
將所述放置標記值與所述地面真值信息進行比較;以及
基于所述放置標記值與所述地面真值信息的所述比較,更新所述序列編碼器的參數。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于奧多比公司,未經奧多比公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202211538478.0/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種叉車轉向橋指標優化方法
- 下一篇:一種生物基可降解聚氨酯及其制備方法





