[發明專利]一種應用于手機端的深度學習圖像識別系統及實現方法有效
| 申請號: | 201710054291.6 | 申請日: | 2017-01-22 |
| 公開(公告)號: | CN106778918B | 公開(公告)日: | 2020-10-30 |
| 發明(設計)人: | 黃萱昆;白洪亮;董遠 | 申請(專利權)人: | 蘇州飛搜科技有限公司 |
| 主分類號: | G06K9/62 | 分類號: | G06K9/62;G06N3/08 |
| 代理公司: | 北京卓唐知識產權代理有限公司 11541 | 代理人: | 龔潔 |
| 地址: | 215123 江蘇省蘇州市蘇州工*** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 應用于 手機 深度 學習 圖像 識別 系統 實現 方法 | ||
1.一種應用于手機端的深度學習圖像識別方法,其特征在于,包括如下步驟:
根據概念劃分映射得到一樹狀類別映射關系,具體為:首先,定義2000類細化關鍵詞,用以在網絡的最后一個Softmax層輸出2000類概念的方式訓練深度卷積神經網絡;次,定義10類基本類為粗概念,定義60類基本細化類為細概念;然后,按照類別概念完成以下映射關系:10類粗概念涵蓋60類細概念,60類細概念涵蓋2000類細化關鍵詞;
基于原始的Inception-v3網絡結構,在網絡中的降維處各增加一并聯分支作為網絡下一層的輸入得到改進的Inception-v3網絡結構,其中,所述并聯分支是指,一卷積核為3*3,步長為2的卷積層,通過所述卷積層的輸出和原始的Inception-v3網絡結構中的MaxPooling層的輸出做通道維度的拼接;
按照所述改進的Inception-v3網絡結構并在設定類上根據所述樹狀類別映射關系訓練得到基模型;
對所述基模型進行壓縮后在手機端運行識別出圖像;
所述壓縮至少包括:參數稀疏化、參數量化或者參數稀疏存儲中的一種。
2.根據權利要求1所述的深度學習圖像識別方法,其特征在于,所述降維處具體是指:
對于原始的Inception-v3網絡結構,維度變化在147*147-73*73和71*71-35*35的兩處降維的地方增加并聯分支。
3.根據權利要求1或2所述的深度學習圖像識別方法,其特征在于,還包括:在多處相鄰串聯的多分支并聯Inception模塊之間加入跨模塊直連分支。
4.根據權利要求1所述的深度學習圖像識別方法,其特征在于,所述參數稀疏化具體為:
設定一與稀疏比呈正比的第一閾值,若小于該閾值的神經元之間的連接則會被剪斷,
若大于該閾值的神經元的連接則會被保留,得到初步稀疏模型;
設定第二閾值,并按照同樣的操作得到一個稀疏比大于初步稀疏模型的第二稀疏模型;
設定第三閾值,并按照同樣的操作得到一個稀疏比大于第二稀疏模型的第三稀疏模型。
5.根據權利要求4所述的深度學習圖像識別方法,其特征在于,設定上述稀疏比變化為30%-50%-70%。
6.根據權利要求4所述的深度學習圖像識別方法,其特征在于,所述參數量化具體為:
將權重矩陣聚類為4個類別,其中屬于同一類的權重共享同一個權重值大小,并存儲權重值的index索引;
在原始的Inception-v3網絡結構,對每個卷積層和全連接層分別按照壓縮比計算公式設定量化中心,其中n表示參數個數,每個參數用b bits表示,k為量化后的中心數。
7.根據權利要求6所述的深度學習圖像識別方法,其特征在于,進一步還包括:
在量化訓練時采用固定類別中心不變,并將每次前饋索引離權重最近的類別中心做為該權重值,
和/或,根據稀疏模型有效參數的分布范圍,線性等間隔的選取類別中心;
和/或,后饋時不進行額外計算,即固定類別中心更新權重值的index。
8.根據權利要求1所述的深度學習圖像識別方法,其特征在于,所述參數稀疏存儲具體為:
對于權重值的index,存儲與上一個有效權重值的相對位置的index,不存儲絕對位置的index。
9.一種應用于手機端的深度學習圖像識別系統,其特征在于,包括:映射關系單元、結構改進單元以及模型單元,
所述映射關系單元,用以根據概念劃分映射得到一樹狀類別映射關系,具體為:首先,定義2000類細化關鍵詞,用以在網絡的最后一個Softmax層輸出2000類概念的方式訓練深度卷積神經網絡;次,定義10類基本類為粗概念,定義60類基本細化類為細概念;然后,按照類別概念完成以下映射關系:10類粗概念涵蓋60類細概念,60類細概念涵蓋2000類細化關鍵詞;
所述結構改進單元,用以基于原始的Inception-v3網絡結構,在網絡中的降維處各增加一并聯分支作為網絡下一層的輸入得到改進的Inception-v3網絡結構,其中,所述并聯分支是指,一卷積核為3*3,步長為2的卷積層,通過所述卷積層的輸出和原始的Inception-v3網絡結構中的Max Pooling層的輸出做通道維度的拼接;
所述模型單元,用以按照所述改進的Inception-v3網絡結構并在設定類上根據所述樹狀類別映射關系訓練得到基模型;
以及,對所述基模型進行壓縮后在手機端運行識別出圖像;所述壓縮至少包括:參數稀疏化、參數量化或者參數稀疏存儲中的一種。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于蘇州飛搜科技有限公司,未經蘇州飛搜科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710054291.6/1.html,轉載請聲明來源鉆瓜專利網。





