[發明專利]一種基于文字表述的行人檢索方法有效
| 申請號: | 202110311957.8 | 申請日: | 2021-03-24 |
| 公開(公告)號: | CN113157974B | 公開(公告)日: | 2023-05-26 |
| 發明(設計)人: | 朱繼;楊少毅;褚智威;石光明;李甫;牛毅 | 申請(專利權)人: | 西安維塑智能科技有限公司 |
| 主分類號: | G06V40/10 | 分類號: | G06V40/10;G06F16/783;G06V20/40;G06V10/82;G06N3/0464;G06N3/08 |
| 代理公司: | 西安智萃知識產權代理有限公司 61221 | 代理人: | 王暢陽 |
| 地址: | 710018 *** | 國省代碼: | 陜西;61 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 文字 表述 行人 檢索 方法 | ||
1.一種基于文字表述的行人檢索方法,其特征在于包括以下步驟:
步驟1:在全局(global-grained)神經網絡分支中,將包含行人的圖像和表述行人的文字輸入全局特征提取網絡,提取圖像和文字的全局特征;
步驟2:在細粒度(fine-grained)神經網絡分支中,將行人圖像用人體圖像分割算法分割成局部區域,并將文字解析成多個表述局部身體衣著的詞組,通過引入關注度機制的神經網絡,提取相互對應的細粒度圖像和文字特征;
步驟3:在粗粒度(coarse-grained)神經網絡分支中,基于人體身體結構的位置關系構建圖卷積神經網絡,將步驟2中提取的細粒度圖像和文字特征分別輸入到圖卷積神經網絡中,將人體結構的先驗信息嵌入到粗粒度圖像和文字特征;
步驟4:分別計算步驟1-3所述三個神經網絡分支相對應的圖像和文字特征的余弦相似度并求和,作為圖像和文字的最終相似度;
步驟5:比較文字表述和行人圖像庫中每張行人圖像的余弦相似度,選取相似度最高的行人圖像作為行人檢索的匹配結果;
所述步驟1具體包括以下步驟:
步驟1.1:將行人圖像輸入ResNet-50卷積網絡得到初始圖像特征;
步驟1.2:將文字表述中的每個單詞用word2vec方法生成詞嵌入特征,并將生成的詞嵌入特征輸入雙向長短期記憶網絡,提取初始文字特征;
步驟1.3:通過一層全連接層將初始圖像特征和初始文字特征分別映射到共享的語義特征空間,從而得到最終用于比較的全局圖像特征xg和文字特征zg;
步驟1.4:采用三元組損失函數訓練全局神經網絡分支,具體損失函數Lg定義如下式:
其中分別表示圖像錨(anchor)樣本、圖像正(positive)樣本和圖像負(negative)樣本的全局特征向量,分別表示文字錨樣本、文字正樣本和文字負樣本的全局特征向量;
所述步驟2具體包括以下步驟:
步驟2.1:使用Graphonomy人體圖像分割算法將行人圖像分割為頭、軀干、手臂、腿部、腳部,得到對應這五個身體部位的0-1二值分割掩膜圖,分別將每個身體部位對應的二值分割掩膜圖和步驟1.1中提取的初始圖像特征相乘并輸入一個全連接層,得到對應身體不同部位的細粒度圖像特征
步驟2.2:使用自然語言處理工具NLTK將文字表述解析為表述身體不同部位衣著的N個詞組,輸入雙向長短期記憶網絡,提取得到詞組特征向量矩陣P=[p1;L;pN]∈RN×d,其中d表示每個詞組向量的長度;
步驟2.3:分別構建與頭、軀干、手臂、腿部、腳部這五個身體部位相關的名詞詞匯庫,將步驟2.2解析出的每個詞組中的關鍵名詞與五個身體部位詞匯中的單詞一一比較,通過提取詞嵌入向量計算向量間的余弦相似度;
步驟2.4:對于文字表述解析出的每個詞組,分別在每個身體部位的詞匯庫中選取與該詞組中的關鍵名詞余弦相似度最高的單詞,并以此構建文字表述中的N個詞組與五個身體部位的語義關聯度矩陣S∈R5×N,并進行歸一化計算得到各個詞組相對于身體不同部位的關注度權重矩陣A=softmax(S);
步驟2.5:引入關注度機制,通過把關注度權重矩陣A和詞組特征P相乘,將詞組特征聚合為分別關聯身體不同部位的文字特征;
步驟2.6:將利用關注度機制聚合后的文字特征通過一個全連接層映射到共享的語義特征空間,得到最終用于和圖像特征進行比較的關聯身體不同部位的細粒度文字特征
步驟2.7:采用三元組損失函數訓練細粒度神經網絡分支,具體損失函數Lf定義如下式:
其中分別表示圖像錨(anchor)樣本、圖像正(positive)樣本和圖像負(negative)樣本的和第i個身體部位相關聯的細粒度特征向量,分別表示文字錨樣本、文字正樣本和文字負樣本的和第i個身體部位相關聯的細粒度特征向量;
所述步驟3具體包括以下步驟:
步驟3.1:在粗粒度神經網絡分支中,基于人體各部位的位置關系構建圖結構,使得頭、手臂、腿部和軀干相鄰接,腳部和腿部相鄰接,得到二值圖鄰接矩陣,并根據該矩陣構建三層圖卷積神經網絡(GCN,Graph?Convolution?Network);
步驟3.2:將步驟2中提取的關聯身體不同部位的細粒度圖像特征和細粒度文字特征分別輸入各自的圖卷積神經網絡,并經過一層全連接層最終映射為嵌入人體結構信息的粗粒度圖像特征xc和文字特征zc;
步驟3.3:采用三元組損失函數訓練粗粒度神經網絡分支,具體損失函數Lc定義如下式:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于西安維塑智能科技有限公司,未經西安維塑智能科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110311957.8/1.html,轉載請聲明來源鉆瓜專利網。





