[發明專利]目標定位方法、裝置、電子設備和介質有效
| 申請號: | 202010340457.2 | 申請日: | 2020-04-26 |
| 公開(公告)號: | CN111539341B | 公開(公告)日: | 2023-09-22 |
| 發明(設計)人: | 張軒燁;吳毓雙;韓曉光;崔曙光 | 申請(專利權)人: | 香港中文大學(深圳);深圳市大數據研究院 |
| 主分類號: | G06V20/52 | 分類號: | G06V20/52;G06V20/40;G06V10/764 |
| 代理公司: | 北京智信四方知識產權代理有限公司 11519 | 代理人: | 李成龍;劉真 |
| 地址: | 518172 廣東省深*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 目標 定位 方法 裝置 電子設備 介質 | ||
本公開實施例提供了一種目標定位方法、裝置、電子設備和介質。該目標定位方法包括,獲得待定位目標的描述信息和待定位圖像,基于所述待定位圖像,生成與所述待定位圖像對應的含有語意信息的第一熱力圖,通過注意力機制處理所述描述信息以及所述第一熱力圖,生成包含所述描述信息的語意特征的第二熱力圖,基于所述第二熱力圖,確定粗糙匹配候選目標定位框,以及對所述粗糙匹配候選目標定位框進行篩選,得到精細匹配目標定位框。從而可以改善在擁擠場景中的目標定位能力。
技術領域
本公開涉及圖像處理領域,具體涉及一種目標定位方法、裝置、電子設備和介質。
背景技術
由于視頻監控和安防領域廣泛的應用前景,越來越多的人開始研究在圖片中定位目標人物的技術,其中,在圖片中根據描述信息定位目標人物是提升視頻監控和安防系統效能面臨的一個很重要的問題,這個問題在擁擠場景的圖片中更具有挑戰性,因為擁擠場景中存在著大量的人物個體。
在現有技術中,行人定位問題多采用一種自上而下的流程,即先檢測全部的行人,然后將其逐一與語言描述進行匹配,最后定位出目標行人在圖片中的位置。然而,本發明人發現,由于擁擠的場景中存在著大量的行人個體,現有的行人檢測方法對于高密度人群或者相互遮擋的行人的檢測能力較弱,因此上述自上而下的流程并不能很好的解決這個問題。
發明內容
為了解決相關技術中的問題,本公開實施例提供一種目標定位方法、裝置、電子設備和介質。
第一方面,本公開實施例中提供了一種目標定位方法,包括獲得待定位目標的描述信息和待定位圖像,基于所述待定位圖像,生成與所述待定位圖像對應的含有語意信息的第一熱力圖,通過注意力機制處理所述描述信息以及所述第一熱力圖,生成包含所述描述信息的語意特征的第二熱力圖,基于所述第二熱力圖,確定粗糙匹配候選目標定位框,以及對所述粗糙匹配候選目標定位框進行篩選,得到精細匹配目標定位框。
可選地,所述第一熱力圖包括基于所述目標對象的多個區域劃分的多個熱力圖,以及/或者,所述第二熱力圖包括基于所述目標對象的多個區域劃分的多個熱力圖。
可選地,所述基于所述待定位圖像,生成與所述待定位圖像對應的含有語意信息的第一熱力圖包括基于所述待定位圖像,生成含有所述多個區域中的第一區域的語意信息的第一區域熱力圖,通過所述第一區域熱力圖引導生成含有所述多個區域中的第二區域的語意信息的第二區域熱力圖,其中,所述第一熱力圖至少包括所述第一區域熱力圖和第二區域熱力圖。
可選地,所述待定位目標的描述信息包括自然語言描述信息,所述通過注意力機制處理所述描述信息以及所述第一熱力圖,生成包含所述描述信息的語意特征的第二熱力圖包括,對所述自然語言描述信息進行特征抽取,得到所述自然語言描述信息的第一特征向量,通過注意力機制,基于所述第一特征向量處理所述第一熱力圖,生成包含所述描述信息的語意特征的第二熱力圖。
可選地,所述方法還包括基于所述待定位圖像,生成與所述待定位圖像對應的基于顏色的第三熱力圖,所述通過注意力機制,基于所述第一特征向量處理所述第一熱力圖,生成包含所述描述信息的語意特征的第二熱力圖包括,基于所述第一特征向量處理所述第三熱力圖,得到第四熱力圖,將所述第一熱力圖和所述第四熱力圖按照通道級聯,得到第二熱力圖。
可選地,所述基于所述第二熱力圖,確定粗糙匹配候選目標定位框包括將所述待定位圖像與所述第二熱力圖按通道級聯,得到中間圖像,使用目標定位算法處理所述中間圖像,得到粗糙配候選目標定位框。
可選地,所述對所述粗糙匹配候選目標定位框進行篩選,得到精細匹配目標定位框包括基于至少一個所述粗糙匹配候選目標定位框確定至少一個定位區域,處理所述待定位圖像和所述第二熱力圖中所述定位區域的信息,得到與所述至少一個定位區域對應的第二特征向量,確定所述第二特征向量與所述第一特征向量之間的相似度,以及基于所述相似度篩選所述粗糙匹配候選目標定位框,得到精細匹配目標定位框。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于香港中文大學(深圳);深圳市大數據研究院,未經香港中文大學(深圳);深圳市大數據研究院許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010340457.2/2.html,轉載請聲明來源鉆瓜專利網。





