[發明專利]一種基于注意力機制的空洞卷積空間金字塔池化上下文學習方法在審
| 申請號: | 201910351669.8 | 申請日: | 2019-04-28 |
| 公開(公告)號: | CN110378484A | 公開(公告)日: | 2019-10-25 |
| 發明(設計)人: | 王吳凡;朱紀洪;匡敏馳;陳呂劼;閆星輝 | 申請(專利權)人: | 清華大學 |
| 主分類號: | G06N20/00 | 分類號: | G06N20/00;G06F17/15 |
| 代理公司: | 北京三聚陽光知識產權代理有限公司 11250 | 代理人: | 張建綱 |
| 地址: | 100084*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 卷積 池化 空洞 金字塔 注意力機制 上下文信息 注意力模型 多尺度 神經網絡模型 非線性函數 上下文特征 并聯組成 分配權重 目標檢測 圖像分類 圖像語義 學習能力 嵌入 學習 分割 靈活 | ||
本發明公開了一種基于注意力機制的空洞卷積空間金字塔池化上下文學習方法,特征是包含:空洞卷積空間金字塔池化模型和注意力模型。所述空洞卷積空間金字塔池化模型由多條帶有不同擴張率的空洞卷積通路并聯組成,用于提取多尺度上下文信息。所述注意力模型通過非線性函數表征不同通道上下文信息之間的關系,進而對各個通道的多尺度信息分配權重。本發明的基于注意力機制的空洞卷積空間金字塔池化上下文學習方法可以增強空洞卷積空間金字塔池化模型的上下文特征學習能力,并能靈活嵌入到神經網絡模型中,適用于圖像語義分割、目標檢測、圖像分類等多種任務,適用于推廣應用。
技術領域
本發明屬于深度學習領域,特別涉及一種基于注意力機制的空洞卷積空間金字塔池化上下文學習方法。
背景技術
空洞卷積空間金字塔池化模型通過并聯多個不同擴張率的空洞卷積提取多尺度上下文信息,然后利用1×1卷積對各個通道進行線性融合。然而,由于多尺度上下文信息通常存在于非線性流形中,單單利用線性函數不足以刻畫多尺度上下文信息之間的非線性關系,導致空洞卷積空間金字塔池化模型無法有效提取多尺度上下文信息。
發明內容
為了克服上述空洞卷積空間金字塔池化模型難以表征不同通道非線性關系的問題,本發明提供一種基于注意力機制的空洞卷積空間金字塔池化上下文學習方法。
本發明的一種基于注意力機制的空洞卷積空間金字塔池化上下文學習方法屬于深度學習領域,其特征在于包含:空洞卷積空間金字塔池化模型和注意力模型,所述空洞卷積空間金字塔池化模型由多條帶有不同擴張率的空洞卷積通路并聯組成,用于提取多尺度上下文信息,所述注意力模型通過非線性函數表征不同通道上下文信息之間的關系,進而對多尺度上下文信息分配權重,增加空洞卷積空間金字塔池化模型的多尺度上下文信息學習能力。
所述空洞卷積空間金字塔池化模型,其特征在于所述空洞卷積空間金字塔池化模型的單條通路可形式化為:
其中p是卷積核中心對應的像素點的位置索引,c是輸入的通道索引,d是所述擴張率,wc,(i,j)是指定通道與位置的卷積核權重,xc,p+d·(i,j)是指定通道與位置的像素值,G是采樣網格,b是偏差項。輸入特征圖x經過所述空洞卷積空間金字塔池化模型處理形成多尺度特征圖其中為所述擴張率為dn的通路所對應的輸出,所述多尺度特征圖通過拼接形成注意力模型的輸入xASPP
所述注意力模型的輸入經過全局池化以及兩次全連接和激活函數后得到不同通道的權重z
z=δ2(W2δ1(W1y))
其中是注意力模型輸入xASPP在通道c,位置(h,w)所對應的值,yc為通道c對應的全局池化值,y為各通道池化值拼接后得到的張量,δ1和δ2為激活函數,W1和W2為全連接層的權重。所述注意力模型的輸入xASPP通過與所述權重z相乘得到多尺度上下文特征圖X
附圖說明
圖1是本發明一種基于注意力機制的空洞卷積空間金字塔池化上下文學習方法示意圖
具體實施方式
下面采用附圖和實施例對本發明做進一步說明,此處所說明的附圖用來提供對本發明的進一步理解,構成本申請的一部分,并不構成對本發明的限定。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于清華大學,未經清華大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910351669.8/2.html,轉載請聲明來源鉆瓜專利網。





