[發(fā)明專利]基于Spark集群的模型訓(xùn)練方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)在審
| 申請(qǐng)?zhí)枺?/td> | 202010146420.6 | 申請(qǐng)日: | 2020-03-04 |
| 公開(kāi)(公告)號(hào): | CN111368998A | 公開(kāi)(公告)日: | 2020-07-03 |
| 發(fā)明(設(shè)計(jì))人: | 王達(dá);劉博;鄭文琛;楊強(qiáng) | 申請(qǐng)(專利權(quán))人: | 深圳前海微眾銀行股份有限公司 |
| 主分類號(hào): | G06N3/08 | 分類號(hào): | G06N3/08;G06N3/04;G06F9/50;G06F16/182 |
| 代理公司: | 深圳市世紀(jì)恒程知識(shí)產(chǎn)權(quán)代理事務(wù)所 44287 | 代理人: | 楊雪梅 |
| 地址: | 518000 廣東省深圳市前海深港合作區(qū)前*** | 國(guó)省代碼: | 廣東;44 |
| 權(quán)利要求書(shū): | 查看更多 | 說(shuō)明書(shū): | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 基于 spark 集群 模型 訓(xùn)練 方法 裝置 設(shè)備 存儲(chǔ) 介質(zhì) | ||
本發(fā)明公開(kāi)了一種基于Spark集群的模型訓(xùn)練方法,包括:獲取訓(xùn)練樣本;通過(guò)深度神經(jīng)子網(wǎng)絡(luò)生成器生成多個(gè)候選子網(wǎng)絡(luò),并基于訓(xùn)練樣本,通過(guò)Spark集群中的多個(gè)第一彈性分布式數(shù)據(jù)集以及各個(gè)候選子網(wǎng)絡(luò),確定各個(gè)候選子網(wǎng)絡(luò)對(duì)應(yīng)的訓(xùn)練誤差;基于各個(gè)訓(xùn)練誤差,在各個(gè)候選子網(wǎng)絡(luò)中確定最優(yōu)子網(wǎng)絡(luò),并基于最優(yōu)子網(wǎng)絡(luò)以及主網(wǎng)絡(luò)確定目標(biāo)模型。本發(fā)明還公開(kāi)了一種基于Spark集群的模型訓(xùn)練裝置、設(shè)備及存儲(chǔ)介質(zhì)。本發(fā)明實(shí)現(xiàn)了在Spark集群中通過(guò)彈性分布式數(shù)據(jù)集進(jìn)行模型訓(xùn)練,進(jìn)而無(wú)需通過(guò)GPU服務(wù)器進(jìn)行模型訓(xùn)練,還能夠根據(jù)不同的訓(xùn)練樣本實(shí)現(xiàn)不同網(wǎng)絡(luò)模型的智能訓(xùn)練和優(yōu)化,降低了模型訓(xùn)練與調(diào)優(yōu)的工作量,提高了網(wǎng)絡(luò)模型的訓(xùn)練效率。
技術(shù)領(lǐng)域
本發(fā)明涉及人工智能技術(shù)領(lǐng)域,尤其涉及一種基于Spark集群的模型訓(xùn)練方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)。
背景技術(shù)
隨著人工智能技術(shù)的快速發(fā)展,神經(jīng)網(wǎng)絡(luò)模型(可以簡(jiǎn)稱為網(wǎng)絡(luò)模型)在系統(tǒng)辨識(shí)、模式識(shí)別、智能控制等領(lǐng)域有著廣泛的應(yīng)用前景。同時(shí),隨著信息社會(huì)的快速發(fā)展,互聯(lián)網(wǎng)產(chǎn)生的數(shù)據(jù)快速增長(zhǎng),目前通常會(huì)采用分布式計(jì)算的方式來(lái)處理海量數(shù)據(jù)。
其中,Spark是一個(gè)基于內(nèi)存的分布式計(jì)算系統(tǒng),目前已被工業(yè)界廣泛應(yīng)用與大數(shù)據(jù)處理與傳統(tǒng)機(jī)器學(xué)習(xí)模型的訓(xùn)練。深度學(xué)習(xí)的模型主要采用GPU進(jìn)行模型訓(xùn)練,大部分傳統(tǒng)行業(yè)的公司一般只會(huì)部署一套Spark集群,不會(huì)另外配置GPU服務(wù)器,而造成模型訓(xùn)練需要耗費(fèi)大量的時(shí)間,導(dǎo)致模型訓(xùn)練的效率低。
上述內(nèi)容僅用于輔助理解本發(fā)明的技術(shù)方案,并不代表承認(rèn)上述內(nèi)容是現(xiàn)有技術(shù)。
發(fā)明內(nèi)容
本發(fā)明的主要目的在于提供一種基于Spark集群的模型訓(xùn)練方法、裝置、設(shè)備及存儲(chǔ)介質(zhì),旨在解決現(xiàn)有部署Spark集群的系統(tǒng)模型訓(xùn)練效率低的技術(shù)問(wèn)題。
為實(shí)現(xiàn)上述目的,本發(fā)明提供一種基于Spark集群的模型訓(xùn)練方法,所述基于Spark集群的模型訓(xùn)練方法包括以下步驟:
獲取訓(xùn)練樣本;
通過(guò)深度神經(jīng)子網(wǎng)絡(luò)生成器生成多個(gè)候選子網(wǎng)絡(luò),并基于所述訓(xùn)練樣本,通過(guò)Spark集群中的多個(gè)第一彈性分布式數(shù)據(jù)集以及各個(gè)候選子網(wǎng)絡(luò),確定各個(gè)候選子網(wǎng)絡(luò)對(duì)應(yīng)的訓(xùn)練誤差;
基于各個(gè)所述訓(xùn)練誤差,在各個(gè)候選子網(wǎng)絡(luò)中確定最優(yōu)子網(wǎng)絡(luò),并基于所述最優(yōu)子網(wǎng)絡(luò)以及主網(wǎng)絡(luò)確定目標(biāo)模型。
在一實(shí)施例中,所述基于所述訓(xùn)練樣本,通過(guò)Spark集群中的第一彈性分布式數(shù)據(jù)集以及各個(gè)候選子網(wǎng)絡(luò),確定各個(gè)候選子網(wǎng)絡(luò)對(duì)應(yīng)的訓(xùn)練誤差的步驟包括:
基于各個(gè)候選子網(wǎng)絡(luò)的網(wǎng)絡(luò)參數(shù)以及主網(wǎng)絡(luò)的主網(wǎng)絡(luò)參數(shù),確定各個(gè)候選子網(wǎng)絡(luò)對(duì)應(yīng)的目標(biāo)網(wǎng)絡(luò)參數(shù);
基于所述訓(xùn)練樣本,通過(guò)Spark集群中的多個(gè)第一彈性分布式數(shù)據(jù)集以及各個(gè)目標(biāo)網(wǎng)絡(luò)參數(shù),確定各個(gè)候選子網(wǎng)絡(luò)對(duì)應(yīng)的訓(xùn)練誤差。
在一實(shí)施例中,所述基于所述訓(xùn)練樣本,通過(guò)Spark集群中的多個(gè)第一彈性分布式數(shù)據(jù)集以及各個(gè)目標(biāo)網(wǎng)絡(luò)參數(shù),確定各個(gè)候選子網(wǎng)絡(luò)對(duì)應(yīng)的訓(xùn)練誤差的步驟包括:
分別將各個(gè)目標(biāo)網(wǎng)絡(luò)參數(shù)分配至Spark集群中的各個(gè)第一彈性分布式數(shù)據(jù)集,以供所述第一彈性分布式數(shù)據(jù)集通過(guò)所述目標(biāo)網(wǎng)絡(luò)參數(shù),基于所述訓(xùn)練樣本進(jìn)行訓(xùn)練;
通過(guò)第二彈性分布式數(shù)據(jù)集獲取各個(gè)第一彈性分布式數(shù)據(jù)集對(duì)應(yīng)的訓(xùn)練結(jié)果,并基于所述訓(xùn)練結(jié)果確定各個(gè)候選子網(wǎng)絡(luò)對(duì)應(yīng)的訓(xùn)練誤差。
在一實(shí)施例中,所述基于各個(gè)所述訓(xùn)練誤差,在各個(gè)候選子網(wǎng)絡(luò)中確定最優(yōu)子網(wǎng)絡(luò)的步驟包括:
基于所述網(wǎng)絡(luò)參數(shù),獲取各個(gè)候選子網(wǎng)絡(luò)的網(wǎng)絡(luò)層數(shù)對(duì)應(yīng)的懲罰系數(shù);
基于各個(gè)懲罰系數(shù)以及訓(xùn)練誤差,分別確定各個(gè)候選子網(wǎng)絡(luò)對(duì)應(yīng)的權(quán)重分值;
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于深圳前海微眾銀行股份有限公司,未經(jīng)深圳前海微眾銀行股份有限公司許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010146420.6/2.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專利網(wǎng)。
- 一種Spark平臺(tái)性能自動(dòng)優(yōu)化方法
- 一種Spark作業(yè)的提交方法及裝置
- Spark性能優(yōu)化控制方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)
- spark任務(wù)的提交方法、裝置和服務(wù)器
- Spark任務(wù)的提交方法、系統(tǒng)、客戶端及服務(wù)端
- 一種提交并守護(hù)spark任務(wù)的方法及裝置
- 用戶任務(wù)的處理方法、裝置、電子設(shè)備和計(jì)算機(jī)可讀介質(zhì)
- Spark任務(wù)處理方法及裝置
- 一種Spark應(yīng)用部署管理方法及相關(guān)設(shè)備
- 數(shù)據(jù)處理方法、裝置、電子設(shè)備、存儲(chǔ)介質(zhì)及程序產(chǎn)品
- 一種集群調(diào)度呼叫業(yè)務(wù)中主叫終端信息顯示方法
- 更新網(wǎng)絡(luò)流量管理設(shè)備同時(shí)維持有效性
- 與集群調(diào)度系統(tǒng)進(jìn)行通信的方法、群集接入網(wǎng)關(guān)及系統(tǒng)
- 一種管理集群通信系統(tǒng)資源的方法
- 基于Kubernetes和OpenStack容器云平臺(tái)多集群構(gòu)建方法、介質(zhì)、設(shè)備
- 一種容災(zāi)系統(tǒng)、容災(zāi)處理方法、監(jiān)控節(jié)點(diǎn)和備份集群
- 一種ETCD集群恢復(fù)方法、系統(tǒng)、設(shè)備及計(jì)算機(jī)介質(zhì)
- 混合云場(chǎng)景下保證可用集群數(shù)量的方法、裝置及系統(tǒng)
- 一種集群拓?fù)涓路椒ā⑾到y(tǒng)、設(shè)備及計(jì)算機(jī)存儲(chǔ)介質(zhì)
- 集群切換方法、集群切換裝置、電子設(shè)備及可讀存儲(chǔ)介質(zhì)





