[發(fā)明專利]一種在聯(lián)邦學(xué)習(xí)場景下的數(shù)據(jù)集劃分方法及系統(tǒng)在審
| 申請?zhí)枺?/td> | 202011455586.2 | 申請日: | 2020-12-10 |
| 公開(公告)號(hào): | CN112686388A | 公開(公告)日: | 2021-04-20 |
| 發(fā)明(設(shè)計(jì))人: | 蘇新鐸;陳建良;田豐;陳光;戴晶幗;王丹丹 | 申請(專利權(quán))人: | 廣州廣電運(yùn)通金融電子股份有限公司 |
| 主分類號(hào): | G06N20/00 | 分類號(hào): | G06N20/00 |
| 代理公司: | 杭州創(chuàng)智卓英知識(shí)產(chǎn)權(quán)代理事務(wù)所(普通合伙) 33324 | 代理人: | 唐超文 |
| 地址: | 510000 廣東省廣州市*** | 國省代碼: | 廣東;44 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 聯(lián)邦 學(xué)習(xí) 場景 數(shù)據(jù) 劃分 方法 系統(tǒng) | ||
本發(fā)明公開了一種在聯(lián)邦學(xué)習(xí)場景下的數(shù)據(jù)集劃分方法及系統(tǒng),其中方法包括:判斷各聯(lián)邦學(xué)習(xí)參與方提供的原始數(shù)據(jù)的數(shù)據(jù)分布是否一致;使用各聯(lián)邦學(xué)習(xí)參與方提供的原始數(shù)據(jù)和模型測試數(shù)據(jù)訓(xùn)練形成聯(lián)邦分類模型;將歸屬于各聯(lián)邦學(xué)習(xí)參與方的原始數(shù)據(jù)輸入到聯(lián)邦分類模型中,聯(lián)邦分類模型輸出模型輸入數(shù)據(jù)為模型測試數(shù)據(jù)的概率;按照預(yù)測概率由高到低選取指定數(shù)量的模型輸入數(shù)據(jù)作為數(shù)據(jù)歸屬的聯(lián)邦學(xué)習(xí)參與方提供的用于驗(yàn)證模型性能的驗(yàn)證集,剩余的模型輸入數(shù)據(jù)作為數(shù)據(jù)歸屬的聯(lián)邦學(xué)習(xí)參與方提供的用于訓(xùn)練模型的訓(xùn)練集。本發(fā)明能夠在聯(lián)邦學(xué)習(xí)各參與方提供的數(shù)據(jù)中找到與測試數(shù)據(jù)集數(shù)據(jù)分布最相似的數(shù)據(jù)樣本作為模型訓(xùn)練的驗(yàn)證集。
技術(shù)領(lǐng)域
本發(fā)明涉及一種數(shù)據(jù)劃分方法,具體涉及一種在聯(lián)邦學(xué)習(xí)場景下的數(shù)據(jù)集劃分方法及系統(tǒng)。
背景技術(shù)
聯(lián)邦機(jī)器學(xué)習(xí),又名聯(lián)邦學(xué)習(xí)、聯(lián)合學(xué)習(xí)、聯(lián)盟學(xué)習(xí),聯(lián)邦學(xué)習(xí)是一個(gè)機(jī)器學(xué)習(xí)框架,能有效幫助多個(gè)機(jī)構(gòu)在滿足用戶隱私保護(hù)、數(shù)據(jù)安全和政府法規(guī)的要求下,進(jìn)行數(shù)據(jù)使用和機(jī)器學(xué)習(xí)建模。在聯(lián)邦學(xué)習(xí)場景中,各個(gè)機(jī)構(gòu)提供的數(shù)據(jù)分布往往不均衡,互相不滿足數(shù)據(jù)同分布條件的情況很常見。如果對各個(gè)機(jī)構(gòu)提供的數(shù)據(jù)不作任何處理直接使用進(jìn)行聯(lián)邦學(xué)習(xí),學(xué)習(xí)而得的模型精度通常不高。所以在聯(lián)邦學(xué)習(xí)中,確保各方提供的數(shù)據(jù)的數(shù)據(jù)分布的一致性顯得尤為必要。
訓(xùn)練深度學(xué)習(xí)模型時(shí),會(huì)預(yù)先將數(shù)據(jù)集劃分為用于模型訓(xùn)練的訓(xùn)練集和用于驗(yàn)證模型性能的驗(yàn)證集。但對于模型實(shí)際性能好壞的評價(jià)依賴于測試數(shù)據(jù)集。理想狀態(tài)下,我們希望驗(yàn)證數(shù)據(jù)集和測試數(shù)據(jù)集的數(shù)據(jù)分布一致,這樣在模型訓(xùn)練過程中利用驗(yàn)證數(shù)據(jù)集即可較好地評估模型性能,而且評估結(jié)果近似于使用測試數(shù)據(jù)集對模型實(shí)際性能的評估結(jié)果。但如果驗(yàn)證數(shù)據(jù)集和測試數(shù)據(jù)集的數(shù)據(jù)分布明顯不同,則通過驗(yàn)證數(shù)據(jù)集和測試數(shù)據(jù)集驗(yàn)證同個(gè)模型的模型性能就會(huì)得到不同的結(jié)果,模型性能無法獲得準(zhǔn)確評估。所以在模型訓(xùn)練中,如何劃分?jǐn)?shù)據(jù)集,以使得劃分的驗(yàn)證數(shù)據(jù)集盡可能與測試數(shù)據(jù)集的數(shù)據(jù)分布一致成為確保模型訓(xùn)練效果的關(guān)鍵。
發(fā)明內(nèi)容
本發(fā)明以在聯(lián)邦學(xué)習(xí)各參與方提供的數(shù)據(jù)中找到與測試數(shù)據(jù)集數(shù)據(jù)分布最相似的數(shù)據(jù)樣本作為模型訓(xùn)練的驗(yàn)證集為目的,提供了一種在聯(lián)邦學(xué)習(xí)場景下的數(shù)據(jù)集劃分方法及系統(tǒng)。
為達(dá)此目的,本發(fā)明采用以下技術(shù)方案:
提供一種在聯(lián)邦學(xué)習(xí)場景下的數(shù)據(jù)集劃分方法,包括如下步驟:
步驟S1,判斷各聯(lián)邦學(xué)習(xí)參與方提供的原始數(shù)據(jù)的數(shù)據(jù)分布是否一致;
步驟S2,使用各所述聯(lián)邦學(xué)習(xí)參與方提供的數(shù)據(jù)分布一致的所述原始數(shù)據(jù),以及模型測試數(shù)據(jù)訓(xùn)練、使用驗(yàn)證集優(yōu)化得到最優(yōu)的聯(lián)邦分類模型M1;
步驟S3,將歸屬于各所述聯(lián)邦學(xué)習(xí)參與方的所述原始數(shù)據(jù)輸入到所述聯(lián)邦分類模型M1中,所述聯(lián)邦分類模型M1輸出模型輸入數(shù)據(jù)為所述模型測試數(shù)據(jù)的概率;
步驟S4,按照預(yù)測概率由高到低選取指定數(shù)量的所述模型輸入數(shù)據(jù)劃分為數(shù)據(jù)歸屬的所述聯(lián)邦學(xué)習(xí)參與方提供的用于驗(yàn)證模型性能的驗(yàn)證集,剩余的所述模型輸入數(shù)據(jù)劃分為數(shù)據(jù)歸屬的所述聯(lián)邦學(xué)習(xí)參與方提供的用于訓(xùn)練模型的訓(xùn)練集。
優(yōu)選地,所述步驟S1中,判斷各所述聯(lián)邦學(xué)習(xí)參與方提供的所述原始數(shù)據(jù)的數(shù)據(jù)分布是否一致的方法具體包括:
步驟S11,將所述聯(lián)邦學(xué)習(xí)參與方提供的所述原始數(shù)據(jù)劃分為與所述原始數(shù)據(jù)的數(shù)據(jù)分布一致的訓(xùn)練集、驗(yàn)證集和測試集;
步驟S12,為劃分的分屬于各所述聯(lián)邦學(xué)習(xí)參與方的訓(xùn)練集、驗(yàn)證集賦予相對應(yīng)的數(shù)據(jù)標(biāo)簽;
步驟S13,使用帶有數(shù)據(jù)標(biāo)簽的分屬于各所述聯(lián)邦學(xué)習(xí)參與方的所述訓(xùn)練集訓(xùn)練、使用驗(yàn)證集優(yōu)化得到最優(yōu)的聯(lián)邦分類模型M2;
步驟S14,將分屬于各所述聯(lián)邦學(xué)習(xí)參與方的所述測試集輸入到所述聯(lián)邦分類模型M2中,得到所述聯(lián)邦分類模型M2區(qū)分各歸屬方輸入數(shù)據(jù)的若干個(gè)本地性能評價(jià)指標(biāo);
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于廣州廣電運(yùn)通金融電子股份有限公司,未經(jīng)廣州廣電運(yùn)通金融電子股份有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011455586.2/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 一種Agent聯(lián)邦快速設(shè)計(jì)流程建模方法
- 基于聯(lián)邦模式的動(dòng)態(tài)產(chǎn)品協(xié)同開發(fā)平臺(tái)及方法
- 一種面向深空通信的數(shù)據(jù)傳輸速率控制方法
- 一種HLA聯(lián)邦成員的動(dòng)態(tài)部署分配方法
- 聯(lián)邦學(xué)習(xí)方法、系統(tǒng)、終端設(shè)備及存儲(chǔ)介質(zhì)
- 一種混合聯(lián)邦學(xué)習(xí)方法及架構(gòu)
- 聯(lián)邦學(xué)習(xí)的沙盒機(jī)制
- 聯(lián)邦模型參數(shù)確定方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)
- 一種應(yīng)用于異構(gòu)計(jì)算設(shè)備的聯(lián)邦學(xué)習(xí)系統(tǒng)和方法
- 基于區(qū)塊鏈的聯(lián)邦建模方法及裝置
- 根據(jù)用戶學(xué)習(xí)效果動(dòng)態(tài)變化下載學(xué)習(xí)數(shù)據(jù)的系統(tǒng)及方法
- 用于智能個(gè)人化學(xué)習(xí)服務(wù)的方法
- 漸進(jìn)式學(xué)習(xí)管理方法及漸進(jìn)式學(xué)習(xí)系統(tǒng)
- 輔助學(xué)習(xí)的方法及裝置
- 基于人工智能的課程推薦方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)
- 基于強(qiáng)化學(xué)習(xí)的自適應(yīng)移動(dòng)學(xué)習(xí)路徑生成方法
- 一種線上視頻學(xué)習(xí)系統(tǒng)
- 一種基于校園大數(shù)據(jù)的自適應(yīng)學(xué)習(xí)方法、裝置及設(shè)備
- 一種學(xué)習(xí)方案推薦方法、裝置、設(shè)備和存儲(chǔ)介質(zhì)
- 游戲?qū)W習(xí)效果評測方法及系統(tǒng)
- 電視場景切換的方法及電視
- 視頻場景控制系統(tǒng)及方法
- 場景開關(guān)及其場景開關(guān)構(gòu)件和場景圖標(biāo)卡組件
- 場景聯(lián)動(dòng)方法及場景聯(lián)動(dòng)系統(tǒng)
- 一種視頻場景分類方法、裝置、移動(dòng)終端及存儲(chǔ)介質(zhì)
- 一種Unity3D引擎的場景切換方法和系統(tǒng)
- 一種自動(dòng)駕駛場景分類識(shí)別系統(tǒng)及方法
- 一種虛擬場景生成方法、裝置、設(shè)備和存儲(chǔ)介質(zhì)
- 一種汽車圖像場景庫數(shù)據(jù)復(fù)雜度度量方法
- 場景識(shí)別方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)
- 數(shù)據(jù)顯示系統(tǒng)、數(shù)據(jù)中繼設(shè)備、數(shù)據(jù)中繼方法、數(shù)據(jù)系統(tǒng)、接收設(shè)備和數(shù)據(jù)讀取方法
- 數(shù)據(jù)記錄方法、數(shù)據(jù)記錄裝置、數(shù)據(jù)記錄媒體、數(shù)據(jù)重播方法和數(shù)據(jù)重播裝置
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)發(fā)送系統(tǒng)、數(shù)據(jù)發(fā)送裝置以及數(shù)據(jù)結(jié)構(gòu)
- 數(shù)據(jù)顯示系統(tǒng)、數(shù)據(jù)中繼設(shè)備、數(shù)據(jù)中繼方法及數(shù)據(jù)系統(tǒng)
- 數(shù)據(jù)嵌入裝置、數(shù)據(jù)嵌入方法、數(shù)據(jù)提取裝置及數(shù)據(jù)提取方法
- 數(shù)據(jù)管理裝置、數(shù)據(jù)編輯裝置、數(shù)據(jù)閱覽裝置、數(shù)據(jù)管理方法、數(shù)據(jù)編輯方法以及數(shù)據(jù)閱覽方法
- 數(shù)據(jù)發(fā)送和數(shù)據(jù)接收設(shè)備、數(shù)據(jù)發(fā)送和數(shù)據(jù)接收方法
- 數(shù)據(jù)發(fā)送裝置、數(shù)據(jù)接收裝置、數(shù)據(jù)收發(fā)系統(tǒng)、數(shù)據(jù)發(fā)送方法、數(shù)據(jù)接收方法和數(shù)據(jù)收發(fā)方法
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)再現(xiàn)方法、數(shù)據(jù)發(fā)送裝置及數(shù)據(jù)再現(xiàn)裝置
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)再現(xiàn)方法、數(shù)據(jù)發(fā)送裝置及數(shù)據(jù)再現(xiàn)裝置





