[發明專利]注視目標估計的方法和裝置、電子設備、神經網絡結構有效
| 申請號: | 202110331364.8 | 申請日: | 2021-03-29 |
| 公開(公告)號: | CN112734820B | 公開(公告)日: | 2021-08-03 |
| 發明(設計)人: | 於其之;金天磊 | 申請(專利權)人: | 之江實驗室 |
| 主分類號: | G06T7/50 | 分類號: | G06T7/50;G06K9/46;G06K9/62;G06N3/04;G06N3/08 |
| 代理公司: | 杭州求是專利事務所有限公司 33200 | 代理人: | 應孔月 |
| 地址: | 310023 浙江省杭州市余*** | 國省代碼: | 浙江;33 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 注視 目標 估計 方法 裝置 電子設備 神經網絡 結構 | ||
本發明公開了一種注視目標估計的方法和裝置、電子設備、神經網絡結構,該方法包括:獲取場景圖像和場景圖像中待處理人物的頭部位置掩膜,從場景圖像和頭部位置掩膜提取場景特征和多層中間特征;將場景特征依次進行深度估計及多次上采樣后與多層中間特征融合,獲得深度輔助特征;根據頭部位置掩膜從場景圖像中獲取頭部圖像,再從頭部圖像提取頭部特征;根據頭部特征計算視線輔助特征,將頭部特征與視線輔助特征融合,獲得視線特征;將場景特征與視線特征依次進行拼接、解碼后與深度輔助特征融合,融合后進行特征轉換輸出注視目標位置。本發明提升了單目圖像中人物的注視目標估計的準確率,適用于提高人機交互系統的意圖識別能力。
技術領域
本發明涉及計算機領域,尤其涉及一種注視目標估計的方法和裝置、電子設備、神經網絡結構。
背景技術
注視目標估計,即檢測圖像中給定人物所注視的目標,是人機交互系統的一項重要功能。人機交互系統通過估計人物的注視目標,能夠更加準確的理解人物當前的興趣點,以及更加準確的預測人物后續的行為。基于單目圖像的注視目標估計的方法對圖像采集設備要求較低,具有廣泛的應用前景。
現有的基于單目圖像的注視目標估計的方法的基本思路是沿視線的投影方向尋找顯著目標。當沿視線的投影方向存在多個顯著目標時,現有方法識別準確率較低,其原因是現有方法沒有考慮視線與顯著目標在深度方向的相對位置關系。
發明內容
本發明實施例的目的是提出一種注視目標估計的方法和裝置、電子設備、神經網絡結構,以解決當沿視線的投影方向存在多個顯著目標時,現有的基于單目圖像的注視目標估計的方法準確率較低的問題。
為了達到上述目的,本發明實施例所采用的技術方案來如下:
第一方面,本發明實施例提供一種注視目標估計的方法,包括:
獲取場景圖像和所述場景圖像中待處理人物的頭部位置掩膜,從所述場景圖像和所述頭部位置掩膜提取場景特征和多層中間特征;
將所述場景特征依次進行深度估計及多次上采樣后與所述多層中間特征融合,獲得深度輔助特征;
根據所述頭部位置掩膜從所述場景圖像中獲取頭部圖像,再從所述頭部圖像提取頭部特征;
根據所述頭部特征計算視線輔助特征,將所述頭部特征與所述視線輔助特征融合,獲得視線特征;
將所述場景特征與所述視線特征依次進行拼接、解碼后與所述深度輔助特征融合,融合后進行特征轉換輸出注視目標位置。
第二方面,本發明實施例提供一種注視目標估計裝置,包括:
第一特征提取模塊,用于獲取場景圖像和所述場景圖像中待處理人物的頭部位置掩膜,從所述場景圖像和所述頭部位置掩膜提取場景特征和多層中間特征;
第二特征提取模塊,用于將所述場景特征依次進行深度估計及多次上采樣后與所述多層中間特征融合,獲得深度輔助特征;
第三特征提取模塊,用于根據所述頭部位置掩膜從所述場景圖像中獲取頭部圖像,從所述頭部圖像提取頭部特征;
第四特征提取模塊,用于根據所述頭部特征計算視線輔助特征,將所述頭部特征與所述視線輔助特征融合,獲得視線特征;
輸出模塊,用于將所述場景特征與所述視線特征依次進行拼接、解碼后與所述深度輔助特征融合,融合后進行特征轉換輸出注視目標位置。
第三方面,本發明實施例提供一種電子設備,包括:
一個或多個處理器;
存儲器,用于存儲一個或多個程序;
當所述一個或多個程序被所述一個或多個處理器執行,使得所述一個或多個處理器實現如第一方面所述的方法。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于之江實驗室,未經之江實驗室許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110331364.8/2.html,轉載請聲明來源鉆瓜專利網。





