[發(fā)明專利]一種數(shù)據(jù)模型的訓(xùn)練方法及裝置有效
| 申請?zhí)枺?/td> | 201811641326.7 | 申請日: | 2018-12-29 |
| 公開(公告)號: | CN111444255B | 公開(公告)日: | 2023-09-22 |
| 發(fā)明(設(shè)計)人: | 戚世葛;孫承華 | 申請(專利權(quán))人: | 杭州海康存儲科技有限公司 |
| 主分類號: | G06F16/26 | 分類號: | G06F16/26;G06V10/774;G06V10/82;G06N3/0464 |
| 代理公司: | 北京德琦知識產(chǎn)權(quán)代理有限公司 11018 | 代理人: | 謝安昆;宋志強(qiáng) |
| 地址: | 310051 浙江省杭州市*** | 國省代碼: | 浙江;33 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 數(shù)據(jù)模型 訓(xùn)練 方法 裝置 | ||
本申請公開了一種數(shù)據(jù)模型的訓(xùn)練方法,該方法包括,在網(wǎng)絡(luò)側(cè),統(tǒng)計來自各用戶側(cè)網(wǎng)絡(luò)設(shè)備上報的差異信息,該差異信息為用戶側(cè)網(wǎng)絡(luò)設(shè)備部署的第一數(shù)據(jù)模型輸出結(jié)果與期望結(jié)果的差異,將統(tǒng)計的差異信息作為訓(xùn)練依據(jù),調(diào)整第一數(shù)據(jù)模型的模型參數(shù),將調(diào)整后的模型參數(shù)分發(fā)至各用戶側(cè)網(wǎng)絡(luò)設(shè)備,使得用戶側(cè)網(wǎng)絡(luò)設(shè)備部署的第一數(shù)據(jù)模型按照分發(fā)的模型參數(shù)更新。解決了訓(xùn)練數(shù)據(jù)模型所需訓(xùn)練數(shù)據(jù)的隱私問題,有效地保護(hù)了私有數(shù)據(jù),并豐富了訓(xùn)練數(shù)據(jù)的來源;通過差異信息的收集可實現(xiàn)定期對數(shù)據(jù)模型的訓(xùn)練,更新數(shù)據(jù)模型的模型參數(shù),使得數(shù)據(jù)模型的訓(xùn)練更有效、更準(zhǔn)確。
技術(shù)領(lǐng)域
本發(fā)明涉及計算機(jī)數(shù)據(jù)挖掘領(lǐng)域,特別地,涉及一種數(shù)據(jù)模型的訓(xùn)練方法及裝置。
背景技術(shù)
通過人工智能、機(jī)器學(xué)習(xí)、統(tǒng)計學(xué)和數(shù)據(jù)庫的交叉方法以發(fā)現(xiàn)數(shù)據(jù)內(nèi)在關(guān)系、潛在信息和價值的數(shù)據(jù)挖掘是計算機(jī)應(yīng)用之一,其本質(zhì)是在相對較大型的數(shù)據(jù)集中發(fā)現(xiàn)模式的計算過程。數(shù)據(jù)挖掘過程中用于訓(xùn)練數(shù)據(jù)挖掘模型的數(shù)據(jù)被稱為訓(xùn)練數(shù)據(jù)。訓(xùn)練數(shù)據(jù)選擇一般有以下要求:數(shù)據(jù)樣本盡可能大、數(shù)據(jù)多樣化,數(shù)據(jù)樣本質(zhì)量較高。
目前數(shù)據(jù)模型的訓(xùn)練按照訓(xùn)練數(shù)據(jù)來源方式大致有兩類:
第一類:利用來源于各開發(fā)團(tuán)隊搜集到的數(shù)據(jù)作為訓(xùn)練數(shù)據(jù)來訓(xùn)練數(shù)據(jù)模型。這種方法的效果取決于開發(fā)團(tuán)隊搜集到的樣本數(shù)據(jù)來源,由于數(shù)據(jù)可能與用戶實際應(yīng)用場景有差別,訓(xùn)練后數(shù)據(jù)模型識別率低,對不同場景的識別效果適應(yīng)性差。且訓(xùn)練一旦結(jié)束之后,除非搜集到新的一批數(shù)據(jù),通常不會對訓(xùn)練結(jié)果進(jìn)行更新。
例如,用于圖像識別的卷積神經(jīng)網(wǎng)絡(luò)(CNN)模型,目前采取的CNN識別訓(xùn)練算法,其數(shù)據(jù)來源為各開發(fā)團(tuán)隊搜集到的數(shù)據(jù),基于對收集的圖片進(jìn)行標(biāo)的,再進(jìn)行訓(xùn)練,訓(xùn)練完成之后進(jìn)行部署。而在部署之后,如果沒有收集到大量的新數(shù)據(jù),通常不會對訓(xùn)練結(jié)果進(jìn)行更新,用戶則一直沿用原始部署的模型來進(jìn)行圖像的識別。
第二類:是利用公有云所存儲的數(shù)據(jù)作為訓(xùn)練數(shù)據(jù)來訓(xùn)練數(shù)據(jù)模型。由于這些公有云上存儲了用戶大量的數(shù)據(jù),數(shù)據(jù)具有多樣性,且用戶會不斷地更新和增加,可以不斷進(jìn)行訓(xùn)練以得到訓(xùn)練結(jié)果的改進(jìn)。但這種方式用戶數(shù)據(jù)的隱私性無法完全保證,并且用戶也可能不會將部分?jǐn)?shù)據(jù)上傳,某些特殊樣式的數(shù)據(jù)有可能無法統(tǒng)計。
發(fā)明內(nèi)容
本發(fā)明提供了一種數(shù)據(jù)模型的訓(xùn)練方法,以提高數(shù)據(jù)模型訓(xùn)練結(jié)果的準(zhǔn)確性。
本申請?zhí)峁┑囊环N數(shù)據(jù)模型的訓(xùn)練方法,該方法包括,在網(wǎng)絡(luò)側(cè),
統(tǒng)計來自各用戶側(cè)網(wǎng)絡(luò)設(shè)備上報的差異信息,該差異信息為用戶側(cè)網(wǎng)絡(luò)設(shè)備部署的第一數(shù)據(jù)模型輸出結(jié)果與期望結(jié)果的差異;
將統(tǒng)計的差異信息作為訓(xùn)練依據(jù),調(diào)整第一數(shù)據(jù)模型的模型參數(shù),;
將調(diào)整后的模型參數(shù)分發(fā)至各用戶側(cè)網(wǎng)絡(luò)設(shè)備,使得用戶側(cè)網(wǎng)絡(luò)設(shè)備部署的第一數(shù)據(jù)模型按照分發(fā)的模型參數(shù)更新。
其中,所述差異信息通過用戶側(cè)設(shè)備捕獲對于所述輸出結(jié)果的糾錯操作而獲得。
所述通過用戶側(cè)設(shè)備捕獲對于所述輸出結(jié)果的糾錯操作包括,捕獲用戶側(cè)設(shè)備應(yīng)用程序?qū)τ谳敵鼋Y(jié)果的糾錯操作,基于糾錯操作生成上報的差異信息。
較佳地,所述統(tǒng)計來自各用戶側(cè)網(wǎng)絡(luò)設(shè)備上報的差異信息包括,
根據(jù)所述差異信息,定期統(tǒng)計來自各用戶側(cè)網(wǎng)絡(luò)設(shè)備中具有第p代子孫模型參數(shù)的第一數(shù)據(jù)模型所輸出樣本特征值;
所述將統(tǒng)計的差異信息作為訓(xùn)練依據(jù),調(diào)整第一數(shù)據(jù)模型的模型參數(shù)包括,
將統(tǒng)計的樣本特征值作為訓(xùn)練依據(jù),統(tǒng)計各所述樣本特征值與預(yù)設(shè)第一閾值的誤差;
按照所述誤差最小的原則,定期選擇出m對第一數(shù)據(jù)模型的模型參數(shù),
將m對第一數(shù)據(jù)模型的模型參數(shù)按照遺傳算法分別進(jìn)行雜交,得到第p+1代子孫模型參數(shù),
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于杭州海康存儲科技有限公司,未經(jīng)杭州海康存儲科技有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201811641326.7/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 數(shù)據(jù)模型對偶化
- 網(wǎng)管數(shù)據(jù)處理方法及裝置
- 基于數(shù)據(jù)庫的自描述數(shù)據(jù)模型結(jié)構(gòu)
- 腳輔具的制造方法
- 數(shù)據(jù)模型升級方法、裝置、設(shè)備及可讀存儲介質(zhì)
- 一種數(shù)據(jù)模型監(jiān)控方法
- 一種基于數(shù)據(jù)模型對媒體數(shù)據(jù)進(jìn)行定點延時投放的戶外電子屏系統(tǒng)
- 數(shù)據(jù)模型的替換方法、裝置、計算機(jī)設(shè)備及存儲介質(zhì)
- 動態(tài)本體數(shù)據(jù)操作
- 一種線上數(shù)據(jù)模型管理裝置、方法及其系統(tǒng)





