[發(fā)明專利]一種語義驅(qū)動武術(shù)動作合成方法在審
| 申請?zhí)枺?/td> | 202310297072.6 | 申請日: | 2023-03-24 |
| 公開(公告)號: | CN116310003A | 公開(公告)日: | 2023-06-23 |
| 發(fā)明(設(shè)計)人: | 耿衛(wèi)東;盧騰;彭昊;厲向東;梁秀波 | 申請(專利權(quán))人: | 浙江大學(xué) |
| 主分類號: | G06T13/40 | 分類號: | G06T13/40;G06F40/30 |
| 代理公司: | 杭州天勤知識產(chǎn)權(quán)代理有限公司 33224 | 代理人: | 曹兆霞 |
| 地址: | 310058 浙江*** | 國省代碼: | 浙江;33 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 語義 驅(qū)動 武術(shù) 動作 合成 方法 | ||
本發(fā)明公開了一種語義驅(qū)動武術(shù)動作合成方法,包括:獲取武術(shù)提示文本;利用可變時長動作合成擴散模型基于武術(shù)提示文本進行武術(shù)動作片段合成,包括:利用文本語義預(yù)處理網(wǎng)絡(luò)依據(jù)武術(shù)提示文本預(yù)測文本條件特征和動作時長,依據(jù)文本條件特征、動作時長經(jīng)過逆擴散迭代生成最后噪聲尺度對應(yīng)的噪聲動作片段作為合成的武術(shù)動作片段;其中,在每個單步逆擴散中,以文本條件特征、動作時長、當(dāng)前噪聲尺度以及上一噪聲尺度得到的噪聲動作片段作為輸入數(shù)據(jù),采用單步逆擴散網(wǎng)絡(luò)依據(jù)輸入數(shù)據(jù)生成粗糙清潔動作片段,并依據(jù)粗糙清潔動作片段進行正向擴散得到當(dāng)前噪聲尺度對應(yīng)的噪聲動作片段。該方法通過語義驅(qū)動可實現(xiàn)復(fù)雜內(nèi)容、可變時長、復(fù)合技能的動作合成與編排。
技術(shù)領(lǐng)域
本發(fā)明屬于自然語言與視覺生成相結(jié)合的技術(shù)領(lǐng)域,具體涉及一種語義驅(qū)動武術(shù)動作合成方法。
背景技術(shù)
三維人體動作合成任務(wù)旨在使用計算機合成自然的三維人體動畫,通常用以驅(qū)動虛擬角色或是機器人。該任務(wù)是計算機動畫領(lǐng)域的一項基本任務(wù),也是一項極具挑戰(zhàn)性的任務(wù)。語義驅(qū)動的三維動作合成旨在通過輸入文本提示,算法能自動提取其中的自然語言語義信息,并指導(dǎo)三維動作合成過程,實現(xiàn)跨模態(tài)動作語義匹配和動作合成。該方法既不需要像手工方法一樣耗費大量人力與時間,也不需要像物理方法一樣設(shè)計復(fù)雜的常微分方程,更不需要像視覺方法一樣強依賴于相機采集的圖像或視頻數(shù)據(jù),只需輸入自由文本就能便捷地進行多樣化動作內(nèi)容的合成。因此,不難預(yù)見該技術(shù)在未來會極大地降低動作數(shù)據(jù)的制作門檻并提升相關(guān)行業(yè)的生產(chǎn)力,在虛擬現(xiàn)實、影視游戲、機器人動作規(guī)劃等領(lǐng)域都有著廣泛的應(yīng)用前景。
盡管目前語義驅(qū)動的動作合成任務(wù)受到了越來越多研究者的關(guān)注,現(xiàn)有的研究工作通常存在以下3點局限性:
1)復(fù)雜動作-武術(shù)提示文本數(shù)據(jù)集匱乏:目前領(lǐng)域內(nèi)可用的動作-武術(shù)提示文本數(shù)據(jù)集僅有3個,并且所有這些數(shù)據(jù)集都包含大量的行走、揮手、跳躍等簡單日常行為動作,因此模型基本只能學(xué)習(xí)合成類似的簡單動作,而對于復(fù)雜專業(yè)的動作樣本合成質(zhì)量不佳。
2)合成結(jié)果動作時長固定:許多語義驅(qū)動的動作合成方法往往只關(guān)注空間姿態(tài)的合成質(zhì)量,而忽略了動作時長的語義驅(qū)動估計,這意味著通常需要手動固定動作時長用于推理,導(dǎo)致動作在時間維度上缺乏多樣性。
3)合成結(jié)果動作技能單一:現(xiàn)有方法通常在只包含單個動作技能的樣本集上進行訓(xùn)練,因此對于包含復(fù)合動作技能的時序動作編排序列則難以合成,并且領(lǐng)域內(nèi)對該問題的關(guān)注程度不足。
因此,迫切需要能在發(fā)揮現(xiàn)有語義驅(qū)動的動作合成技術(shù)便捷優(yōu)勢的同時,解決上述領(lǐng)域內(nèi)存在的局限性。目前語義驅(qū)動的動作合成技術(shù)仍處于起步階段,囿于復(fù)雜動作-武術(shù)提示文本數(shù)據(jù)集的匱乏,現(xiàn)有方法的合成結(jié)果通常存在動作內(nèi)容簡單、動作時長固定、動作技能單一的問題。
武術(shù)動作是一類復(fù)雜專業(yè)動作技能的集合,并且其在影視動畫、電子游戲等領(lǐng)域有著廣泛的應(yīng)用需求。然而,由于武術(shù)動作的建模通常需要動畫師具備額外的專業(yè)知識或是邀請武術(shù)從業(yè)者進行動作捕捉,因此相比于行走、揮手、跳躍等簡單動作,高質(zhì)量武術(shù)動作數(shù)據(jù)的獲取成本顯然更加昂貴。并且,武術(shù)動作通常缺少細粒度的長文本來描述某一套武術(shù)招式,這對于構(gòu)建匹配的文本注釋數(shù)據(jù)集來說也是一個挑戰(zhàn),所以目前完全沒有針對武術(shù)動作所構(gòu)建的動作-武術(shù)提示文本數(shù)據(jù)集。
發(fā)明內(nèi)容
鑒于上述,本發(fā)明的目的是提供一種語義驅(qū)動武術(shù)動作合成方法,通過語義驅(qū)動可實現(xiàn)復(fù)雜內(nèi)容、可變時長、復(fù)合技能的動作合成與編排。
為實現(xiàn)上述發(fā)明目的,實施例提供的一種語義驅(qū)動武術(shù)動作合成方法,包括以下步驟:
獲取待合成武術(shù)動作片段對應(yīng)的武術(shù)提示文本;
利用可變時長動作合成擴散模型基于武術(shù)提示文本進行武術(shù)動作片段合成,包括:利用文本語義預(yù)處理網(wǎng)絡(luò)依據(jù)武術(shù)提示文本預(yù)測文本條件特征和動作時長,依據(jù)文本條件特征、動作時長經(jīng)過逆擴散迭代生成最后噪聲尺度對應(yīng)的噪聲動作片段作為合成的武術(shù)動作片段;
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于浙江大學(xué),未經(jīng)浙江大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202310297072.6/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。





