[發(fā)明專利]面向人體高保真視覺(jué)內(nèi)容的多特征協(xié)同生成系統(tǒng)及方法在審
| 申請(qǐng)?zhí)枺?/td> | 202110256691.1 | 申請(qǐng)日: | 2021-03-09 |
| 公開(kāi)(公告)號(hào): | CN113139424A | 公開(kāi)(公告)日: | 2021-07-20 |
| 發(fā)明(設(shè)計(jì))人: | 王毅剛;寇思敏;尹學(xué)松 | 申請(qǐng)(專利權(quán))人: | 杭州電子科技大學(xué) |
| 主分類號(hào): | G06K9/00 | 分類號(hào): | G06K9/00;G06K9/46;G06K9/62;G06N3/04;G06N3/08 |
| 代理公司: | 杭州君度專利代理事務(wù)所(特殊普通合伙) 33240 | 代理人: | 朱月芬 |
| 地址: | 310018 浙*** | 國(guó)省代碼: | 浙江;33 |
| 權(quán)利要求書(shū): | 查看更多 | 說(shuō)明書(shū): | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 面向 人體 高保真 視覺(jué) 內(nèi)容 特征 協(xié)同 生成 系統(tǒng) 方法 | ||
1.面向人體高保真視覺(jué)內(nèi)容的多特征協(xié)同生成方法,其特征在于包括如下步驟:
步驟1、數(shù)據(jù)集的解析、選擇與調(diào)整;
步驟2、人體視覺(jué)內(nèi)容協(xié)同生成網(wǎng)絡(luò)模型的搭建;
步驟3、對(duì)人體視覺(jué)內(nèi)容協(xié)同生成網(wǎng)絡(luò)模型的訓(xùn)練;
步驟4、生成結(jié)果的有效性評(píng)估。
2.根據(jù)權(quán)利要求1所述的面向人體高保真視覺(jué)內(nèi)容的多特征協(xié)同生成方法,其特征在于步驟1具體實(shí)現(xiàn)過(guò)程如下:
1-1.選擇并獲取關(guān)于人體的圖像數(shù)據(jù)集Ⅰ和與人體運(yùn)動(dòng)的視頻數(shù)據(jù)集Ⅱ;
1-2.圖像數(shù)據(jù)集Ⅰ用于提取人體形狀特征表示,且同時(shí)該圖像數(shù)據(jù)集Ⅰ能夠用于人物外觀紋理的生成;圖像數(shù)據(jù)集Ⅰ的要求是能夠利用人體解析工具獲取人體部位分割掩碼或者直接提供分割信息的高清人體圖像數(shù)據(jù)集;
1-3.視頻數(shù)據(jù)集Ⅱ用于人體姿態(tài)/動(dòng)作信息提取,且是能夠利用姿態(tài)檢測(cè)器清晰識(shí)別人體姿態(tài)骨架或者直接帶有2D關(guān)節(jié)點(diǎn)標(biāo)簽的單人視頻數(shù)據(jù)集。
3.根據(jù)權(quán)利要求1所述的面向人體高保真視覺(jué)內(nèi)容的多特征協(xié)同生成方法,其特征在于所述的圖像數(shù)據(jù)集Ⅰ中的每張人體圖像均包含高清人體圖像和義分割掩碼圖。
4.根據(jù)權(quán)利要求1所述的面向人體高保真視覺(jué)內(nèi)容的多特征協(xié)同生成方法,其特征在于為滿足生成任務(wù)的可行性與普適性,需要選取具有不同特點(diǎn)和量級(jí)的多組數(shù)據(jù)集,一個(gè)圖像數(shù)據(jù)集Ⅰ和與人體運(yùn)動(dòng)的視頻數(shù)據(jù)集Ⅱ記為一組。
5.根據(jù)權(quán)利要求1所述的面向人體高保真視覺(jué)內(nèi)容的多特征協(xié)同生成方法,其特征在于步驟2所述的該協(xié)同生成網(wǎng)絡(luò)模型包括三個(gè)基本特征模塊:姿態(tài)特征模塊、形狀特征模塊和紋理特征模塊;姿態(tài)特征模塊、形狀特征模塊和紋理特征模塊分別是針對(duì)人體運(yùn)動(dòng)/動(dòng)作信息的姿態(tài)特征解析、針對(duì)人體形狀的語(yǔ)義特征解析與針對(duì)人體外觀的紋理特征解析;三個(gè)基本特征模塊從不同的屬性出發(fā),協(xié)同引導(dǎo)人體視覺(jué)內(nèi)容的生成,共同組成最終的生成網(wǎng)絡(luò)模型。
6.根據(jù)權(quán)利要求5所述的面向人體高保真視覺(jué)內(nèi)容的多特征協(xié)同生成方法,其特征在于所述的姿態(tài)特征模塊用于對(duì)動(dòng)作、骨骼和相機(jī)視角的特征融合,其中動(dòng)作取自視頻,骨骼與相機(jī)視角取自圖像;將動(dòng)作、骨骼和相機(jī)視角合并解碼后得到所需生成內(nèi)容的人體姿態(tài)骨架序列圖,將該骨架序列輸入到姿態(tài)編碼器中,通過(guò)卷積神經(jīng)網(wǎng)絡(luò)對(duì)其進(jìn)行編碼,將其映射到高維空間中,作為視覺(jué)內(nèi)容生成的姿態(tài)引導(dǎo)。
7.根據(jù)權(quán)利要求5或6所述的面向人體高保真視覺(jué)內(nèi)容的多特征協(xié)同生成方法,其特征在于形狀特征模塊用于對(duì)輸入人體圖像的語(yǔ)義分割掩碼圖進(jìn)行編碼,將人體形狀特征映射到生成空間,以引導(dǎo)形狀特征模塊在已知姿態(tài)特征的基礎(chǔ)上進(jìn)行人體各個(gè)部位的形狀生成。
8.根據(jù)權(quán)利要求7所述的面向人體高保真視覺(jué)內(nèi)容的多特征協(xié)同生成方法,其特征在于紋理特征模塊是生成器的最后一個(gè)屬性來(lái)源模塊,紋理特征模塊用于對(duì)輸入的高清人體圖像進(jìn)行編碼,得到高清人體圖像的紋理特征;最后將紋理特征與姿態(tài)特征、形狀特征進(jìn)行融合,生成最終的人體視覺(jué)內(nèi)容并送入?yún)f(xié)同生成網(wǎng)絡(luò)模型的判別器中;此外判別器還需針對(duì)骨架序列圖、掩碼圖與高清人體圖像三個(gè)組成進(jìn)行真?zhèn)舞b別,以反饋內(nèi)容生成器所生成視覺(jué)內(nèi)容的真實(shí)感,經(jīng)過(guò)訓(xùn)練提高生成器的生成效果。
9.根據(jù)權(quán)利要求8所述的面向人體高保真視覺(jué)內(nèi)容的多特征協(xié)同生成方法,其特征在于步驟3具體實(shí)現(xiàn)如下:由于人體視覺(jué)內(nèi)容協(xié)同生成網(wǎng)絡(luò)模型為多階段生成對(duì)抗網(wǎng)絡(luò)結(jié)構(gòu),整個(gè)網(wǎng)絡(luò)模型先進(jìn)行三個(gè)基本特征模塊的編解碼訓(xùn)練;然后將三個(gè)基本特征模進(jìn)行融合,生成器輸出最終的人體視覺(jué)內(nèi)容并送入?yún)f(xié)同生成網(wǎng)絡(luò)模型的判別器中;而后聯(lián)合多特征判別器進(jìn)行人體視覺(jué)內(nèi)容的生成對(duì)抗訓(xùn)練,直到鑒別概率接近或達(dá)到0.5,完成訓(xùn)練。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于杭州電子科技大學(xué),未經(jīng)杭州電子科技大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110256691.1/1.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專利網(wǎng)。
- 同類專利
- 專利分類
G06K 數(shù)據(jù)識(shí)別;數(shù)據(jù)表示;記錄載體;記錄載體的處理
G06K9-00 用于閱讀或識(shí)別印刷或書(shū)寫(xiě)字符或者用于識(shí)別圖形,例如,指紋的方法或裝置
G06K9-03 .錯(cuò)誤的檢測(cè)或校正,例如,用重復(fù)掃描圖形的方法
G06K9-18 .應(yīng)用具有附加代碼標(biāo)記或含有代碼標(biāo)記的打印字符的,例如,由不同形狀的各個(gè)筆畫(huà)組成的,而且每個(gè)筆畫(huà)表示不同的代碼值的字符
G06K9-20 .圖像捕獲
G06K9-36 .圖像預(yù)處理,即無(wú)須判定關(guān)于圖像的同一性而進(jìn)行的圖像信息處理
G06K9-60 .圖像捕獲和多種預(yù)處理作用的組合
- 一種用于電源再生器中的高保真功率放大電路
- 高保真音頻系統(tǒng)及其驅(qū)動(dòng)方法
- 一種高保真DNA聚合酶及其制備和應(yīng)用
- 一種重組高保真DNA聚合酶及其編碼基因和表達(dá)方法
- 用于壓縮高保真運(yùn)動(dòng)數(shù)據(jù)以通過(guò)有限帶寬網(wǎng)絡(luò)傳輸?shù)南到y(tǒng)和方法
- 一種針對(duì)大規(guī)模復(fù)雜系統(tǒng)的參數(shù)配置優(yōu)化方法及裝置
- 一種高保真音響設(shè)備
- 一種適用于CFD不確定度量化的高保真度混沌多項(xiàng)式修正方法
- 一種快速制作高保真界面原型的方法、系統(tǒng)及設(shè)備
- 使用視頻頭的高保真音頻信號(hào)記錄/回放裝置





