[發明專利]一種指示對象的檢測方法、裝置以及相關設備有效
| 申請號: | 201810542990.X | 申請日: | 2018-05-30 |
| 公開(公告)號: | CN110555337B | 公開(公告)日: | 2022-12-06 |
| 發明(設計)人: | 陳新鵬;馬林;陳靜遠;劉威 | 申請(專利權)人: | 騰訊科技(深圳)有限公司 |
| 主分類號: | G06V20/20 | 分類號: | G06V20/20;G06V10/774;G06V10/82;G06N3/08 |
| 代理公司: | 深圳市深佳知識產權代理事務所(普通合伙) 44285 | 代理人: | 王仲凱 |
| 地址: | 518057 廣東省深圳*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 指示 對象 檢測 方法 裝置 以及 相關 設備 | ||
1.一種指示對象的檢測方法,其特征在于,包括:
獲取給定圖像和給定自然語句;
根據指示對象檢測模型,對所述給定圖像和所述給定自然語句進行處理得到所述給定自然語句描述的指示對象在所述給定圖像中的位置坐標,所述指示對象檢測模型為端到端的神經網絡,所述神經網絡以圖像和自然語句作為輸入,以指示對象的位置坐標作為輸出;
所述指示對象檢測模型包括多模態編碼網絡、多模態特征交互融合網絡和指示對象定位網絡;
所述多模態編碼網絡是以圖像和自然語句為輸入,以圖像的特征和自然語句的特征為輸出的第一神經網絡;
所述多模態特征交互融合網絡是以所述多模態編碼網絡的輸出為輸入,以經過注意力操作處理后的圖像和自然語句的聯合特征為輸出的第二神經網絡;所述多模態特征交互融合網絡包括基于注意力機制的多層感知器神經網絡,用于利用自然語句全局特征對圖像局部特征進行注意力操作處理得到圖像深層特征,以及利用圖像全局特征對自然語句局部特征進行注意力操作處理得到自然語句深層特征,根據所述圖像深層特征和所述自然語句深層特征合并生成圖像和自然語句的聯合特征;
所述指示對象定位網絡是以所述多模態特征交互融合網絡的輸出為輸入,以指示對象的位置坐標為輸出的第三神經網絡。
2.根據權利要求1所述的方法,其特征在于,所述根據指示對象檢測模型,對所述給定圖像和所述給定自然語句進行處理得到所述給定自然語句描述的指示對象在所述給定圖像中的位置坐標,包括:
將所述給定圖像和所述給定自然語句輸入所述多模態編碼網絡,獲得所述多模態編碼網絡的第一輸出內容,所述第一輸出內容包括所述給定圖像全局特征、所述給定圖像局部特征、所述給定自然語句全局特征和所述給定自然語句局部特征;
將所述第一輸出內容輸入所述多模態特征交互融合網絡,獲得所述多模態特征交互融合網絡的第二輸出內容,所述第二輸出內容包括所述給定圖像和所述給定自然語句的聯合特征;
將所述第二輸出內容輸入所述指示對象定位網絡,獲得所述指示對象定位網絡的第三輸出內容,所述第三輸出內容包括所述給定自然語句描述的指示對象在所述給定圖像中的位置坐標。
3.根據權利要求1至2中任一項所述的方法,其特征在于,所述方法還包括:
構建指示對象初始檢測模型,其中,所述指示對象初始檢測模型包括初始多模態編碼網絡、初始多模態特征交互融合網絡和初始指示對象定位網絡;
獲取訓練樣本集中的訓練樣本,所述訓練樣本包括訓練圖像、訓練自然語句以及指示對象的真實位置坐標;
將所述訓練圖像和所述訓練自然語句輸入所述指示對象初始檢測模型中,依次經過所述初始多模態編碼網絡、所述初始多模態特征交互融合網絡和所述初始指示對象定位網絡的處理,獲得所述初始指示對象定位網絡的輸出內容,所述輸出內容包括所述訓練自然語句描述的指示對象的預測位置坐標;
根據所述預測位置坐標和所述真實位置坐標構建損失函數;
根據所述損失函數調整所述指示對象初始檢測模型的模型參數,根據滿足訓練條件時所調整的模型參數和所述指示對象初始檢測模型的網絡結構,確定所述指示對象檢測模型。
4.根據權利要求3所述的方法,其特征在于,所述根據所述預測位置坐標和所述真實位置坐標構建損失函數,包括:
根據第一誤差和第二誤差,構建損失函數;其中,所述第一誤差是指所述預測位置坐標與所述真實位置坐標之間的誤差;所述第二誤差是指視覺注意力預測權重與視覺注意力真實權重之間的誤差;所述視覺注意力預測權重是根據所述初始多模態特征交互融合網絡對所述訓練圖像進行注意力操作處理時所得到的訓練圖像局部特征的權重;所述視覺注意力真實權重是根據所述真實位置坐標確定的訓練圖像局部特征的權重。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于騰訊科技(深圳)有限公司,未經騰訊科技(深圳)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810542990.X/1.html,轉載請聲明來源鉆瓜專利網。





