[發明專利]用于神經網絡的注意力特征獲取方法、裝置及存儲介質有效
| 申請號: | 201811459423.4 | 申請日: | 2018-11-30 |
| 公開(公告)號: | CN109635926B | 公開(公告)日: | 2021-11-05 |
| 發明(設計)人: | 沈卓然;張明遠;趙海宇;伊帥;閆俊杰 | 申請(專利權)人: | 深圳市商湯科技有限公司 |
| 主分類號: | G06N3/04 | 分類號: | G06N3/04;G06N3/08 |
| 代理公司: | 北京林達劉知識產權代理事務所(普通合伙) 11277 | 代理人: | 劉新宇 |
| 地址: | 518054 廣東省深圳市南*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 用于 神經網絡 注意力 特征 獲取 方法 裝置 存儲 介質 | ||
本公開涉及一種用于神經網絡的注意力特征獲取方法、裝置及存儲介質,其中所述方法包括:對輸入特征張量進行第一卷積處理,獲得多個基準注意力張量;對所述輸入特征張量進行第二卷積處理,獲得注意力系數張量;基于所述輸入特征張量與各所述基準注意力張量,獲得與各基準注意力張量對應的基準特征向量,所述基準特征向量由所述輸入特征張量和所述基準注意力張量中對應元素的乘積之和構成;利用所述注意力系數張量與基準特征向量,得到各特征點的注意力特征。本公開實施例能夠將降低消耗的計算和存儲資源。
技術領域
本公開涉及神經網絡領域,特別涉及一種用于神經網絡的注意力特征獲取方法、裝置及存儲介質。
背景技術
神經網絡是一種令計算機系統自行學習解決具體任務的技術。有神經網絡模塊主要包括卷積模塊、循環模塊、全連接模塊、注意力模塊等。其中,卷積模塊和循環模塊主要用于學習局部相關性,而全連接模塊和注意力模塊用于學習全局相關性。
在學習全局相關性時,注意力模塊的計算和記憶資源消耗均正比于輸入大小的平方,因此由于資源限制無法應用于較大輸入。值得注意的是,這里的輸入大小衡量的是輸入中基本單元的數量。例如,全連接和注意力模塊的資源消耗,對于文本、語音、強化學習和機器人已編碼的過往經驗等輸入,正比于輸入長度的平方;對于圖片輸入,正比于圖片大小的平方,即圖片邊長的四次方;對于視頻、強化學習和機器人未編碼的過往經驗等輸入,正比于其體積的平方,即邊長的六次方。
因此,現有技術的神經網絡存在由于資源限制不能應用于較大輸入的技術問題。
發明內容
本公開實施例提供了一種能夠將降低消耗的計算和存儲資源的用于神經網絡的注意力特征獲取方法、裝置及存儲介質
根據本公開的一方面,提供了一種用于神經網絡的注意力特征獲取方法,其包括:
對輸入特征張量進行第一卷積處理,獲得多個基準注意力張量,所述基準注意力張量中的元素為與輸入特征張量中各特征點對應的基準注意力;
對所述輸入特征張量進行第二卷積處理,獲得注意力系數張量,所述注意力系數張量中的元素為與所述輸入特征張量內各所述特征點對應的基準注意力系數,并且所述注意力系數張量的通道數與所述基準注意力張量的數量相同;
基于所述輸入特征張量與各所述基準注意力張量,獲得與各基準注意力張量對應的基準特征向量,所述基準特征向量由所述輸入特征張量和所述基準注意力張量中對應元素的乘積之和構成;
利用所述注意力系數張量與各所述基準特征向量,得到各所述特征點的注意力特征。
在一些可能的實施方式中,所述對輸入特征張量進行第一卷積處理,獲得多個基準注意力張量,包括:
利用第一卷積核對所述輸入特征張量進行卷積處理,獲得各所述基準注意力張量,其中,
所述各基準注意力張量的長度與輸入特征張量的長度相同,以及所述基準注意力張量的寬度與輸入特征張量的寬度相同。
在一些可能的實施方式中,所述對所述輸入特征張量進行第二卷積處理,獲得注意力系數張量,包括:
利用第二卷積核對所述輸入特征張量進行卷積處理,獲得各所述注意力系數張量,其中,
所述注意力系數張量的長度與輸入特征張量的長度相同,所述注意力系數張量的寬度與輸入特征張量的寬度相同。
在一些可能的實施方式中,所述基于所述輸入特征張量與各所述基準注意力張量,獲得與各基準注意力張量對應的基準特征向量,包括:
將所述輸入特征張量中各特征點對應的特征向量與基準注意力張量中相同特征點的基準注意力相乘,得到針對基準注意力張量中每個特征點的第一乘積;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于深圳市商湯科技有限公司,未經深圳市商湯科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201811459423.4/2.html,轉載請聲明來源鉆瓜專利網。





