[發(fā)明專利]用于神經網絡量化的方法和設備在審
| 申請?zhí)枺?/td> | 201710996667.5 | 申請日: | 2017-10-19 |
| 公開(公告)號: | CN107967517A | 公開(公告)日: | 2018-04-27 |
| 發(fā)明(設計)人: | 崔裕鎮(zhèn);李正元;穆斯塔法·艾爾可哈米 | 申請(專利權)人: | 三星電子株式會社 |
| 主分類號: | G06N3/08 | 分類號: | G06N3/08;G06K9/62 |
| 代理公司: | 北京銘碩知識產權代理有限公司11286 | 代理人: | 張川緒,王兆賡 |
| 地址: | 韓國京畿*** | 國省代碼: | 暫無信息 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 用于 神經網絡 量化 方法 設備 | ||
本申請要求于2016年10月19日提交的第62/409,961號美國臨時專利申請的優(yōu)先權、于2017年2月15日提交的第15/433,531號美國專利申請的優(yōu)先權以及于2017年9月6日提交的第15/697,035美國專利申請的優(yōu)先權并且本申請還要求于2017年4月3日提交的第62/480,857號美國臨時專利申請的優(yōu)先權,所有這些專利申請的全部內容通過引用包含于此。
技術領域
本公開總體涉及深度神經網絡,更具體地說,涉及用于神經網絡量化(neural network quantization)的方法和設備。
背景技術
機器學習技術不斷發(fā)展并且已經支持現代社會的從網絡搜索、內容篩選、商業(yè)網站自動推薦、自動游戲到對象檢測、圖像分類、語音識別、機器翻譯、藥物研發(fā)和基因學的許多方面。機器學習領域的當前水平是深度神經網絡,其使用由多個處理層構成的計算模型,所述多個處理層學習具有多個抽象級的數據(通常是極大量的數據)表示,因此使用術語“深度學習”、“深度網絡”等。例如,參見LeCun,Yann,Yoshua Bengio,and Geoffrey Hinton,“Deep learning”,Nature,vol.521,pp.436-444(2015年5月28日),其全部內容通過引用完整地包含于此。
機器學習中第一階段且最重要的階段為訓練。考慮用于圖像的分類的機器學習系統。例如,人、寵物、汽車和房屋的圖像的大的數據集合被采集,每一個圖像標記有相應的類別。在訓練期間,機器被示出圖像并且以分數矢量的形式產生輸出,每個類別對應一個分數。最終目標是對于正確的類別具有全部類別中的最高分數,但是這在訓練之前不可能發(fā)生。測量輸出分數與期望的模式的分數之間的誤差(或距離)的目標函數被用于訓練。更具體地,機器修改其內部可調節(jié)的參數來降低從目標函數計算的誤差。這些可調節(jié)的參數(通常稱為權重)是定義機器的輸入-輸出函數的參數。在通常的深度學習系統中,存在用于訓練機器的億萬個這樣可調節(jié)的權重/參數以及億萬個有標簽的示例。
為了合適地調節(jié)權重矢量,學習算法計算梯度矢量,其中,梯度矢量指示:針對每個權重,如果權重增加了很少量,則將增加或減少多少誤差。然后,沿著與梯度矢量相反的方向來調節(jié)權重矢量。在全部的訓練示例中平均的目標函數可被可視化為一種權重值的高維空間中的起伏畫面(hilly landscape)。負梯度矢量指示在該畫面中的最陡下降的方向,使其更接近于輸出誤差平均起來是較低的最小值。實踐中,通常使用稱為隨機梯度下降(SGD)的過程。隨機梯度下降(SGD)由以下項構成:為少量示例顯示輸入矢量、計算輸出和誤差、針對這些示例計算平均梯度、相應地調節(jié)權重。針對許多來自訓練集合的小集合的示例重復該過程,直到目標函數的平均值停止減小。稱為隨機的原因是:小集合的示例給出全部示例的平均梯度的噪聲估計。當與更加復雜的優(yōu)化技術相比時,該簡單的過程通常極其快速地發(fā)現好的權重的集合。在訓練之后,針對不同集合的示例(稱為測試集合)來測量系統的性能。這有助于測試機器的泛化能力,即,對在訓練期間從未見過的新的輸入產生合理的答案的能力。
如上提到的,存在億萬個網絡參數/權重,需要大量的存儲器來存儲。因此,雖然深度神經網絡極其強大,但是它們也需要大量的資源來實現,尤其在存儲器存儲方面。例如,參見Krizhevsky,Alex,Ilya Sutskever and Geoffrey E.Hinton,"Imagenet classification with deep convolutional neural networks."Advances in neural information processing systems 2012(具有6100萬個網絡參數)以及Simonyan,Karen,and Andrew Zisserman,"Very deep convolutional networks for large-scale image recognition,"arXiv preprint arXiv:1409.1556(2014)(具有1.38億個網絡參數),二者通過引用完整地包含于此。
這使得在具有有限的存儲器的裝置(諸如,移動/便攜式裝置)上發(fā)展神經網絡是困難的。
發(fā)明內容
因此,本公開已經用于至少解決在此描述的問題和/或缺點,以至少提供以下描述的優(yōu)點。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于三星電子株式會社,未經三星電子株式會社許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業(yè)授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710996667.5/2.html,轉載請聲明來源鉆瓜專利網。





