[發明專利]一種帶注意力機制的目標密度估計方法有效
| 申請號: | 202010534052.2 | 申請日: | 2020-06-12 |
| 公開(公告)號: | CN111681236B | 公開(公告)日: | 2022-05-17 |
| 發明(設計)人: | 不公告發明人 | 申請(專利權)人: | 成都數之聯科技股份有限公司 |
| 主分類號: | G06T7/00 | 分類號: | G06T7/00;G06N3/04 |
| 代理公司: | 成都云縱知識產權代理事務所(普通合伙) 51316 | 代理人: | 熊曦 |
| 地址: | 610042 四川省*** | 國省代碼: | 四川;51 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 注意力 機制 目標 密度 估計 方法 | ||
1.一種帶注意力機制的目標密度估計方法,其特征在于,所述方法包括:
預處理訓練圖像,包括:標注訓練圖像中預設目標的位置得到對應的預設目標坐標表格;
基于預設目標坐標表格,生成對應訓練圖像中的預設目標的真值密度圖;
基于各個訓練圖像對應的預設目標的真值密度圖生成全局注意力區域圖;
將訓練圖像與該訓練圖像中的預設目標的真值密度圖分別輸入并行的密度預測網絡與注意力區域網絡,密度預測網絡輸出預設目標密度預測圖,注意力區域網絡輸出注意力區域圖;
合并注意力區域圖與預設目標密度預測圖,消除預設目標密度預測圖中的額外噪點,得到最終預設目標密度特征圖;
將最終預設目標密度特征圖展開為最終預設目標預測圖;
在密度預測網絡中,訓練圖像被分別送入三個并行的下采樣編碼子網絡,下采樣編碼子網絡將預設圖像壓縮;三個并行的下采樣編碼子網絡分別使用三種不同大小的卷積核,每個下采樣編碼子網絡均包括三個卷積層、一個池化層和三個激活層;
密度預測網絡中的三個并行的下采樣編碼子網絡針對訓練圖像中的大、中和小目標分別輸出一份特征圖,將這三份特征圖合并到同一份特征圖中;
利用基于VGG16網絡的預訓練注意力區域網絡,通過遷移學習的方法,搭建生成注意力區域圖的注意力區域網絡,將VGG16網絡最后四層全連接層變成卷積核為1×1的卷積層,利用反卷積層4倍上采樣,將圖像大小縮放到與密度預測網絡輸出圖像大小相同;
密度預測網絡與注意力區域網絡采用GPU加速計算。
2.根據權利要求1所述的帶注意力機制的目標密度估計方法,其特征在于,所述預處理訓練圖像還包括:將訓練圖像處理為同一尺寸。
3.根據權利要求1所述的帶注意力機制的目標密度估計方法,其特征在于,所述基于預設目標坐標表格,生成對應訓練圖像中的預設目標的真值密度圖,具體包括:
定標拍攝訓練圖像的拍攝設備得到該拍攝設備拍攝的圖像大小相對于真實物體大小的縮放矩陣;
將預設目標坐標表格結合對應的縮放矩陣,通過高斯核卷積,生成訓練圖像對應的預設目標真值密度圖。
4.根據權利要求3所述的帶注意力機制的目標密度估計方法,其特征在于:
其中,G(x,y)是高斯核卷積生成的訓練圖像中預設目標真值密度圖,x為橫坐標,y為縱坐標,π為圓周率,σ為高斯核大小。
5.根據權利要求1所述的帶注意力機制的目標密度估計方法,其特征在于,所述基于各個訓練圖像對應的預設目標的真值密度圖生成全局注意力區域圖,具體包括:將各個訓練圖像對應的預設目標的真值密度圖融入到一張坐標圖中,并歸一化到[0,1]區間內生成全局注意力區域圖。
6.根據權利要求5所述的帶注意力機制的目標密度估計方法,其特征在于:
其中,Attention(x,y)為全局注意力區域圖,G(x,y)為訓練圖像中預設目標的真值密度圖,x為橫坐標,y為縱坐標,m為訓練圖像編號;M為訓練圖像總數。
7.根據權利要求1所述的帶注意力機制的目標密度估計方法,其特征在于:
訓練圖像通過卷積核掃描生成輸入到下一層網絡的特征圖,其數學原理如下:
y=∑iwixi+b
其中,y為輸出特征圖的值,wi為該卷積層神經元的權重,xi為輸入特征圖的值,i為神經元編號,b為偏置參數;
對訓練圖像進行像素填充,在訓練圖像周圍額外添加一圈像素,其數學表達如下:
其中,dout為輸出特征圖的邊長,din為輸入特征圖的邊長,dkernel為卷積核邊長,p為像素填充量,stride為步長;
卷積處理后的特征圖經過最大池化;
使用ReLU函數作為神經網絡的激活函數:
σ(x)=max(0,x)
其中,σ(x)為激活函數輸出值,x為特征圖的值。
8.根據權利要求1所述的帶注意力機制的目標密度估計方法,其特征在于,密度預測網絡添加作為解碼器的上采樣結構,訓練圖像將經過兩個上采樣模塊處理,每個上采樣模塊由一個反卷積層組和一個卷積層組構成;
上采樣模塊能通過對訓練圖像做像素級的插值,擴大圖像尺寸,其數學表達如公式:
dout=(din)×stride+dkernel-2×p
其中,dout為輸出特征圖邊長,din為輸入特征圖邊長,dkernel為反卷積卷積核邊長,p為像素填充量,stride為步長。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于成都數之聯科技股份有限公司,未經成都數之聯科技股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010534052.2/1.html,轉載請聲明來源鉆瓜專利網。





