[發明專利]一種數據處理系統及方法有效
| 申請號: | 201611110243.6 | 申請日: | 2016-12-06 |
| 公開(公告)號: | CN108154237B | 公開(公告)日: | 2022-04-05 |
| 發明(設計)人: | 張長征;白小龍;涂丹丹 | 申請(專利權)人: | 華為技術有限公司 |
| 主分類號: | G06N7/00 | 分類號: | G06N7/00 |
| 代理公司: | 北京中博世達專利商標代理有限公司 11274 | 代理人: | 申健 |
| 地址: | 518129 廣東*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 數據處理系統 方法 | ||
本發明實施例公開了一種數據處理裝置,該裝置用于在利用一個子樣本數據集計算完每個參數的一組梯度信息之后,將這一個子樣本數據集刪掉后再讀取下一個子樣本數據集,并利用下一個子樣本數據集計算每個參數的另一組梯度信息。將計算得到的每個參數的多組梯度信息分別累計后得到所述每個參數的更新梯度。
技術領域
本發明涉及大數據技術領域,尤其涉及一種數據處理系統及方法。
背景技術
隨著信息技術的發展,企業大數據迅速增長。采用機器學習(包括深度學習)對該企業大數據進行數據分析,可以得出一些規律,這些規律有很多用途,例如:可以用來做預測等。
在現有技術中,企業大數據通常是海量的,在采用機器學習算法對該企業大數據進行分析的過程中,如何提升機器學習模型的收斂速度是目前亟待解決的問題。
發明內容
有鑒于此,本發明實施例提供了一種數據處理系統及方法,以提升機器學習模型的收斂速度。
第一方面,本發明的實施例提供一種數據處理裝置,所述數據處理裝置包括:梯度計算模塊,累計模塊,以及發送模塊;所述梯度計算模塊,用于在一次迭代運算過程中,從樣本數據集依次讀取多個子樣本數據集,所述子樣本數據集包括至少一個樣本數據,將讀入的每個子樣本數據集分別輸入機器學習模型,計算所述機器學習模型的多個參數中的每個參數的梯度信息,并且,在利用一個子樣本數據集計算完每個參數的一組梯度信息之后,將這一個子樣本數據集刪掉后再讀取下一個子樣本數據集,并利用下一個子樣本數據集計算每個參數的另一組梯度信息,所述機器學習模型是具有初始化全局參數的機器學習模型,或者是在上一次迭代運算中經過更新的機器學習模型;所述累計模塊,用于在所述一次迭代運算過程中,將計算得到的每個參數的多組梯度信息分別累計后得到所述每個參數的更新梯度;所述發送模塊,用于在所述一次迭代運算過程中,將每個參數的所述更新梯度發送,所述每個參數的所述更新梯度用于更新所述機器學習模型。
在上述實施例中,在每一次迭代運算中,由于將上一次讀入的子樣本數據集做了刪除,所以所述數據處理裝置可以再次從樣本數據集讀取子樣本數據集,這樣,所述數據處理裝置可以多次從樣本數據集讀取子樣本數據集,計算多組梯度信息,并將所述多組梯度信息累計。這樣,可以提供根據充足的樣本數據計算更新梯度,從而可以提升大規模機器學習模型的收斂速度。另外,數據處理裝置將根據多個子樣本數據集計算出來的梯度信息經過累計后再發送給模型更新模塊,減少了模型更新模塊與數據處理裝置之間通信的次數。由于減少了模型更新模塊與數據處理裝置之間通信的次數,相應地減少了模型更新模塊與數據處理裝置之間的通信所占用的時間,從而減少了多次迭代運算的總時間,提高了機器學習的速度。
在第一方面的第一種可能的實現方式中,所述梯度計算模塊,所述累計模塊,以及所述發送模塊進一步用于參與所述一次迭代運算之后的多次迭代運算,直至所述機器學習模型收斂或者完成指定迭代次數的計算;在所述一次迭代運算之后的多次迭代運算中的每一次迭代運算中,所述梯度計算模塊和所述累計模塊,以及所述發送模塊重復在所述一次迭代運算過程中的動作,在所述一次迭代運算以及所述一次迭代運算之后的多次迭代運算中,所述機器學習模型在采用一次迭代運算中得到的更新梯度被更新后,被輸入后一次的迭代運算。
結合第一方面或第一方面的第一種可能的實現方式,在第一方面的第二種可能的實現方式中,所述累計模塊具體用于:針對根據所述讀取的多個子樣本數據集,分別得到的每個參數的多組梯度信息,分別將屬于同一個參數的多組梯度信息累計,得到每個參數的更新梯度。
結合第一方面或第一方面的第一種可能的實現方式,在第一方面的第三種可能的實現方式中,所述累計模塊具體用于:針對根據每一個子樣本數據集,得到的每個參數的一組梯度信息,分別將屬于同一個參數的一組梯度信息累計,得到每個參數的累計梯度,這樣,針對所述讀取的多個子樣本數據集,得到每個參數的多個累計梯度,再將每個參數的多個累計梯度分別累計,得到每個參數的更新梯度。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于華為技術有限公司,未經華為技術有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201611110243.6/2.html,轉載請聲明來源鉆瓜專利網。





