[發明專利]基于可配置卷積層的卷積神經網絡的算法優化方法及裝置有效
| 申請號: | 201811525557.1 | 申請日: | 2018-12-13 |
| 公開(公告)號: | CN109558944B | 公開(公告)日: | 2021-02-19 |
| 發明(設計)人: | 朱明;班華忠;李志國;王正;李黨 | 申請(專利權)人: | 北京智芯原動科技有限公司 |
| 主分類號: | G06N3/04 | 分類號: | G06N3/04;G06N3/063 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 100101 北京市朝陽區北*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 配置 卷積 神經網絡 算法 優化 方法 裝置 | ||
1.基于可配置卷積層的卷積神經網絡的算法優化方法,其特征在于,該方法包括:
第一步驟,對卷積神經網絡的每個卷積層,分別采用基于Neon指令的定點化卷積濾波優化法,對卷積層進行優化處理,獲取對應卷積層的第一性能評測數據;
第二步驟,對卷積神經網絡的每個卷積層,分別采用基于Neon指令的定點化卷積矩陣乘優化法,對卷積層進行優化處理,獲取對應卷積層的第二性能評測數據;
第三步驟,針對卷積神經網絡的每個卷積層,如果第一性能評測數據優于第二性能評測數據,則認為對應的卷積層最佳配置為基于Neon指令的定點化卷積濾波優化法,否則認為對應的卷積層最佳配置為基于Neon指令的定點化卷積矩陣乘優化法;
第四步驟,根據卷積神經網絡的每個卷積層的最佳配置,對卷積神經網絡進行優化處理。
2.如權利要求1所述的方法,其特征在于,所述基于Neon指令的定點化卷積濾波優化法包括:對每個卷積層,基于Neon指令,使用定點的加載指令進行數據的并行加載操作,使用定點的乘加指令進行數據的乘加操作,獲取累加數據,使用定點的存儲指令對累加數據進行并行存儲。
3.如權利要求1所述的方法,其特征在于,所述基于Neon指令的定點化卷積矩陣乘優化法包括:
A矩陣獲取步驟,將卷積層的卷積核圖像進行矩陣化處理,獲取對應的A矩陣,并將A矩陣列數按照4×n倍數對齊;
B矩陣獲取步驟,輸入待卷積圖像,將待卷積輸入圖像進行矩陣化處理,獲取對應的B矩陣,并將B矩陣行數按照4×n倍數對齊;
轉置矩陣Bt獲取步驟,對B矩陣進行轉置變換,獲取轉置矩陣Bt;
行與行點積計算步驟,計算A矩陣和Bt矩陣的行與行點積;
Neon指令處理步驟,采用Neon指令進行定點化并行優化處理;
其中,所述參數n表示倍率,所述n的取值包括:1,2,4。
4.如權利要求3所述的方法,其特征在于,所述A矩陣獲取步驟包括:對于卷積層中CNum個卷積核大小為N×N的卷積核圖像,依次將每個卷積核圖像作為一行矩陣數據,獲取行數為CNum、列數為N×N的A矩陣;將A矩陣的列數擴展為4×n的倍數,擴展的每列矩陣內數值為0。
5.如權利要求3所述的方法,其特征在于,所述B矩陣獲取步驟包括:輸入需要卷積層處理的待卷積圖像;根據N×N的卷積核依次進行卷積滑窗處理,以獲取MNum個經過卷積滑窗處理后的卷積特征子圖像;依次將每個卷積特征子圖像作為一列矩陣數據,獲取行數為N×N、列數為MNum的B矩陣;將B矩陣的行數擴展為4×n的倍數,擴展的每行矩陣內數值為0。
6.如權利要求3所述的方法,其特征在于,所述轉置矩陣Bt獲取步驟包括:將B矩陣的行與列進行轉置變換,以獲得行數為MNum、列數為N×N擴展成4×n倍數對齊的Bt矩陣。
7.如權利要求3所述的方法,其特征在于,所述Neon指令處理步驟包括:在Neon指令中,采用定點的加載指令進行數據的并行加載操作;采用定點的乘法指令進行數據的并行乘法或乘加運算操作;采用定點的拆分指令進行結果數據的拆分獲取;采用定點的加法指令進行數據的并行加法操作;采用定點的按對加指令進行相鄰數據的并行累加;采用定點的存儲指令對累加數據進行并行存儲。
8.如權利要求1所述的方法,進一步地,所述第一性能評測數據和所述第二性能評測數據包括:運算耗時。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京智芯原動科技有限公司,未經北京智芯原動科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201811525557.1/1.html,轉載請聲明來源鉆瓜專利網。





