[發明專利]輕量級自注意力模塊、神經網絡模型和神經網絡構架的搜索方法在審
| 申請號: | 202010210768.7 | 申請日: | 2020-03-23 |
| 公開(公告)號: | CN111539524A | 公開(公告)日: | 2020-08-14 |
| 發明(設計)人: | 靳瀟杰;李英偉;梅杰儒;連曉晨;楊林杰;楊建朝 | 申請(專利權)人: | 字節跳動有限公司 |
| 主分類號: | G06N3/08 | 分類號: | G06N3/08;G06N3/04 |
| 代理公司: | 泰和泰律師事務所 51219 | 代理人: | 祝海燕 |
| 地址: | 美國加利福尼亞州洛杉磯西*** | 國省代碼: | 暫無信息 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 輕量級 注意力 模塊 神經網絡 模型 構架 搜索 方法 | ||
本公開實施例公開了輕量級自注意力模塊、神經網絡模型和神經網絡構架的搜索方法。該模塊的一具體實施方式包括:特征信息輸入單元,采樣單元,整合單元,卷積單元和累加單元,其中,特征信息輸入單元,用于接收輸入的目標對象的特征向量;采樣單元,包括至少兩個采樣子單元,采樣子單元用于對特征向量進行采樣,得到采樣特征向量;整合單元,用于整合至少兩個采樣子單元各自輸出的采樣特征向量,得到整合采樣特征向量;卷積單元,用于對整合采樣特征向量執行卷積操作;累加單元,用于將卷積單元輸出的卷積結果與特征向量進行累加。實現了可無縫嵌入神經網絡中的輕量級自注意力模塊,顯著減少了自注意力模塊的計算復雜度,同時提升了神經網絡的分類精度。
技術領域
本公開涉及神經網絡技術領域,尤其涉及輕量級自注意力模塊、神經網絡模型和神經網絡構架的搜索方法。
背景技術
隨著神經網絡技術的發展,各種神經網絡模型用于進行圖像分類、語義分割、自然語言處理領域。
基于自注意力機制的神經網絡可以捕獲長范圍依賴,使得基于自注意力機制的神經網絡逐漸在圖像分類、語義分割、自然語言處理領域得到了廣泛應用。
發明內容
提供該公開內容部分以便以簡要的形式介紹構思,這些構思將在后面的具體實施方式部分被詳細描述。該公開內容部分并不旨在標識要求保護的技術方案的關鍵特征或必要特征,也不旨在用于限制所要求的保護的技術方案的范圍。
本公開實施例提供了一種輕量級自注意力模塊、神經網絡模型和神經網絡構架的搜索方法,實現了可無縫嵌入神經網絡中的輕量級自注意力模塊,顯著減少了自注意力模塊的計算復雜度,同時提升了神經網絡的分類精度。
第一方面,本公開實施例提供了一種輕量級自注意力模塊,包括:特征信息輸入單元,采樣單元,整合單元,卷積單元和累加單元,其中,所述特征信息輸入單元,用于接收輸入的目標對象的特征向量;所述采樣單元,包括至少兩個采樣子單元,所述采樣子單元用于對所述特征向量進行采樣,得到采樣特征向量;所述整合單元,用于整合所述至少兩個采樣子單元各自輸出的采樣特征向量,得到整合采樣特征向量;卷積單元,用于對整合采樣特征向量執行卷積操作;所述累加單元,用于將卷積單元輸出的卷積結果與所述特征向量進行累加。
第二方面,本公開實施例提供了一種神經網絡模型,包括多個依次設置的特征提取層,至少一個如第一方面所述的輕量級自注意力模塊,所述輕量級自注意力模塊設置在相鄰兩個特征提取層之間。
第三方面,本公開實施例提供了一種神經網絡構架的搜索方法,包括:設置包括多個特征提取層、全連接層以及設置在任意相鄰兩個特征提取層之間的如第一方面所述的輕量級自注意力模塊,其中,特征提取層、全連接層及所述輕量級自注意力模塊各自對應初始參數;使用訓練數據以及預先設置的損失函數,從所述最后一層特征提取層至第一層特征提取層逐層確定各相鄰兩層是否使用所述輕量級自注意力模塊,并逐層確定各層對應的特征提取層、所述輕量級自注意力模塊對應的參數以及全連接層對應的參數;其中,所述輕量級自注意力模塊的參數包括采樣單元、卷積單元各自對應的參數。
第四方面,本公開實施例提供了一種電子設備,包括:一個或多個處理器;存儲裝置,用于存儲一個或多個程序,當所述一個或多個程序被所述一個或多個處理器執行,使得所述一個或多個處理器實現如第三方面所述的神經網絡模型的構建方法。
第五方面,本公開實施例提供了一種計算機可讀介質,其上存儲有計算機程序,該程序被處理器執行時實現如第三方面所述的神經網絡模型的構建方法的步驟。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于字節跳動有限公司,未經字節跳動有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010210768.7/2.html,轉載請聲明來源鉆瓜專利網。





