[發明專利]基于圖表示和改進Transformer的人體解析方法有效
| 申請號: | 202110608046.1 | 申請日: | 2021-06-01 |
| 公開(公告)號: | CN113313173B | 公開(公告)日: | 2023-05-30 |
| 發明(設計)人: | 蘇卓;陳敏詩;周凡 | 申請(專利權)人: | 中山大學 |
| 主分類號: | G06V10/764 | 分類號: | G06V10/764;G06V40/10;G06V10/20;G06V10/32;G06V10/82;G06N3/0464;G06N3/08 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 510006 廣東*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 圖表 改進 transformer 人體 解析 方法 | ||
1.一種基于圖表示和改進Transformer的人體解析方法,其特征在于,所述方法包括:
第一步,從服裝數據集輸入原始人體圖像和分割真值圖,并做預處理;
第二步,對所述預處理后的原始人體圖像,使用DeeplabV3+網絡生成粗解析圖,并計算得到各個部位的分割掩碼;
第三步,根據人體層次結構的先驗知識,定義出語義類別數目和標簽層次結構信息,從而定義三種鄰接矩陣,作為輸入圖-Transformer結構的掩膜;
第四步,利用所述各個部位的分割掩碼,以及利用所述語義類別數目和標簽層次結構信息,將高維的所述粗解析圖嵌入表示為圖特征;
第五步,利用所述圖特征和所述三種鄰接矩陣,通過圖-Transformer結構對全局信息推理傳播,計算出新的圖特征;
第六步,使用所述新的圖特征和所述各個部位的分割掩碼,計算出中間解析圖,將其與所述粗解析圖進行融合得到精解析圖;
第七步,利用所述預處理后的原始人體圖像,在神經網絡的編碼解碼結構中重復上述第二、四、五、六步進行訓練,形成最終人體解析模型;
第八步,輸入待處理人體圖像到所述最終人體解析模型中,得到需要的精解析圖;
其中,所述根據人體層次結構的先驗知識,定義出語義類別數目和標簽層次結構信息,從而定義三種鄰接矩陣,作為輸入圖-Transformer結構的掩膜,具體為:
根據人體層次結構,定義三種層次的語義標簽結構,再根據該語義標簽結構,將標簽序號轉換成圖結點的鄰接矩陣A(j)∈RN×N,其中j∈[1,3]分別表示三個鄰接矩陣,由此表示的無向圖為G=(V,E),語義結點V表示標簽類別,即結點數等于人體部位的標簽類別數N=|V|,圖的邊E由類別間的關系決定,對于兩個結點不存在邊相連的矩陣元素定義為-inf,其余存在關系的位置設為0,使后續計算的注意力權重在(0,1)的數值范圍內更新;
其中,所述利用所述各個部位的分割掩碼,以及利用所述語義類別數目和標簽層次結構信息,將高維的所述粗解析圖嵌入表示為圖特征,具體為:
輸入所述各個部位的分割掩碼,即所述通過平均池化和最大池化得到的二進制掩碼,記為M(k)∈RN×H×W,其中k為1、2時分別代表平均池化和最大池化操作的掩碼,H,W分別為掩碼圖層的高、寬;
將兩種分割掩碼分別與所述粗解析圖執行矩陣乘法再相加,將此過程表示為映射即通過得到嵌入表示的圖特征Y∈RN×D,其中D是每個圖結點的特征維數,所述圖結點的數目為N,即為人體部位的標簽類別數目;
其中,所述利用所述圖特征和所述三種鄰接矩陣,通過圖-Transformer結構對全局信息推理傳播,計算出新的圖特征,具體為:
將所述圖特征Y∈RN×D作為圖-Transformer的輸入序列,設向量p=[0,1,2,…,N-1]T為各個人體部位的位置編碼,其中N為人體部位的標簽類別數,將所述位置編碼與所述圖特征做級聯操作,組成圖-Transformer的新的輸入序列;
將所述新的輸入序列通過多頭注意力機制的部分計算,得到初始的兼容性得分,再將所述三種鄰接矩陣作為掩膜輸入,與初始的兼容性得分相加作為一種負向約束,以抑制不存在關系的結點的權重,從而得到更新的兼容性得分;
將所述更新的兼容性得分做softmax歸一化處理,得到0到1之間的注意力掩碼;
計算所述圖結點之間的特征向量的余弦相似度,從而得出圖結點之間的關系矩陣B(i)∈RN×N,其中i∈[1,3]分別表示三個關系矩陣;
將所述關系矩陣和所述注意力掩碼做矩陣乘法,得到三種中間圖特征;
將所述三種中間圖特征與所述鄰接矩陣A(j)∈RN×N計算L1損失;
將所述三種中間圖特征做級聯操作,得到融合圖特征,融合后進行非線性變換,得到增強的圖特征,其維度與輸入圖-Transformer時一致,迭代計算上述步驟一定次數,最終輸出為新的圖特征Y′∈RN×D;
其中,所述使用所述新的圖特征和所述各個部位的分割掩碼,計算出中間解析圖,將其與所述粗解析圖進行融合得到精解析圖,具體為:
將所述二進制分割掩碼M(k)∈RN×H×W與所述新的圖特征Y′∈RN×D做矩陣乘法,由此將圖特征中每一個人體標簽類別的圖表示的特征向量轉換為特征圖,得到中間解析圖;
對所述中間解析圖做1*1的卷積操作,將其通道數設定為256個,以便與粗解析圖進行相加融合,得到最終的精解析圖Z′∈RC×H×W,其中C是通道數。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中山大學,未經中山大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110608046.1/1.html,轉載請聲明來源鉆瓜專利網。
- 基于Transformer+LSTM神經網絡模型的商品銷量預測方法及裝置
- 一種基于Transformer模型自然場景文字識別方法
- 一種深度Transformer級聯神經網絡模型壓縮算法
- 點云分割方法、系統、介質、計算機設備、終端及應用
- 基于Transformer的中文智能對話方法
- 一種基于改進Transformer模型的飛行器故障診斷方法和系統
- 一種基于Transformer模型的機器翻譯模型優化方法
- 基于Transformer和增強交互型MPNN神經網絡的小分子表示學習方法
- 基于U-Transformer多層次特征重構的異常檢測方法及系統
- 基于EfficientDet和Transformer的航空圖像中的飛機檢測方法





