[發明專利]一種基于文本的三維體素模型生成方法有效
| 申請號: | 202110717686.6 | 申請日: | 2021-06-28 |
| 公開(公告)號: | CN113434918B | 公開(公告)日: | 2022-12-02 |
| 發明(設計)人: | 余月;楊越;李博聞 | 申請(專利權)人: | 北京理工大學 |
| 主分類號: | G06F30/10 | 分類號: | G06F30/10;G06F30/27;G06V10/764;G06N3/04;G06N3/08 |
| 代理公司: | 北京正陽理工知識產權代理事務所(普通合伙) 11639 | 代理人: | 鄔曉楠 |
| 地址: | 100081 *** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 文本 三維 模型 生成 方法 | ||
1.一種基于文本的三維體素模型生成方法,其特征在于:包括如下步驟,
步驟一:將文本描述輸入到語義編碼器中得到文本和三維體素模型的聯合語義特征,語義編碼器由語義編碼器架構中預訓練得到的文本編碼器實現;
步驟二:通過條件生成對抗網絡框架使生成器獲得生成匹配文本來描述三維體素模型的能力;
步驟三:通過重建模型標簽的判別器,指導生成器訓練生成更為精致的三維體素模型;
步驟四:通過使生成器在不同階段生成不同分辨率下的三維體素模型,將所述三維體素模型傳遞給不同階段的判別器,并對其結果進行聯合訓練,使生成器能夠應對高分辨率模型生成任務且生成三維體素模型更精致;
步驟四實現方法為,
在生成高分辨率三維體素模型的任務中,數據量隨模型分辨率提高而提高,擬合難度也隨之提升;通過構建級聯的生成對抗網絡,同時生成多個不同分辨率下的結果,再使用多個不同分辨率下的判別器結合真實數據對生成結果進行評判,通過將所述評判結果進行綜合并作為損失函數計算梯度,實現在生成器網絡的不同部分對其添加約束的功能,實現同時對生成器的中間及結尾添加約束的目的;其過程表示為如下公式;
此公式中fi表示第i個判別器,此公式綜合所有分辨率下判別器對其對應的三維體素模型生成結果的評估,使生成器能夠應對高分辨率模型生成任務且生成三維體素模型更精致;
步驟五:通過在高分辨率模型判別器中加入局部判別器提升其處理高數據量及模型細節能力,提升三維體素模型生成結果的精致度和分辨率;
步驟五實現方法為,
在高分辨率模型的判別器中,分辨率提高的同時三維體素模型的紋理細節增多,采用原判別器會導致部分局部細節被忽略,網絡無法達到最好的效果,原有的方法只能對整體進行評估;通過引入局部判別器的方案,在原判別器網絡的基礎上添設新的局部判別器,該判別器只針對于判斷模型的局部細節并將其反饋給生成器用于其對生成模型細節任務的訓練;由于同時只處理模型的一小部分,此網絡在能夠應對高分辨率模型帶來的高數據量問題與高分辨率模型被高度壓縮所導致的模型特征不能充分地描述模型的問題;其過程表示為如下公式;
此公式中,代表模型的局部,此處通過將模型各個部分判別結果的平均值作為損失訓練,此系統獲得處理局部細節特征的能力;在實際訓練中,判別器盡可能使此公式值更大而生成器盡可能使此公式值縮小;
改進后的高分辨率判別器神經網絡以三維體素模型和文本向量為輸入,此判別器實現三個功能,包括對模型整體真偽的判別,對模型局部真偽的判別及對模型類別標簽的重建,以對模型整體及局部的判別結果與重建的類別標簽為輸出;此判別器首先通過一段卷積神經網絡提取特征,在此之后分別將提取的特征傳遞給類標簽重建網絡和模型真偽判別網絡中去;類標簽重建網絡以模型特征為輸入生成模型類別標簽,模型真偽判別網絡以模型特征及文本向量為輸入生成對三維體素模型真偽及三維體素模型與文本匹配程度的判別結果;通過在高分辨率模型判別器中加入局部判別器使得生成對抗網絡具備處理三維體素模型細節的能力,使生成的高分辨率三維體素模型在局部細節上更逼真,提升三維體素模型生成結果的精致度和分辨率。
2.如權利要求1所述的一種基于文本的三維體素模型生成方法,其特征在于:還包括步驟六,將從文本生成的三維體素模型用于跨模態生成領域中,解決相關工程技術問題;
所述相關工程技術問題包括多媒體教育資源構建、三維體素模型編輯和計算機教學輔助。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京理工大學,未經北京理工大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110717686.6/1.html,轉載請聲明來源鉆瓜專利網。





