[發(fā)明專利]分布式集群中的樣本特征分位點(diǎn)確定方法及裝置有效
| 申請(qǐng)?zhí)枺?/td> | 202011233423.X | 申請(qǐng)日: | 2020-11-06 |
| 公開(公告)號(hào): | CN112367396B | 公開(公告)日: | 2022-05-17 |
| 發(fā)明(設(shè)計(jì))人: | 張興盟;余超凡;王磊 | 申請(qǐng)(專利權(quán))人: | 支付寶(杭州)信息技術(shù)有限公司 |
| 主分類號(hào): | H04L67/10 | 分類號(hào): | H04L67/10;H04L67/1097;H04L9/40;G06F21/60;G06N3/04;G06N3/08 |
| 代理公司: | 北京億騰知識(shí)產(chǎn)權(quán)代理事務(wù)所(普通合伙) 11309 | 代理人: | 陳霽;周良玉 |
| 地址: | 310000 浙江省杭州市*** | 國省代碼: | 浙江;33 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 分布式 集群 中的 樣本 特征 分位點(diǎn) 確定 方法 裝置 | ||
本說明書實(shí)施例提供一種分布式集群中的樣本特征分位點(diǎn)確定方法及裝置,用于確定樣本特征中第一屬性項(xiàng)的特征分位點(diǎn),主節(jié)點(diǎn)的CPU從內(nèi)存中分別讀取具有設(shè)定項(xiàng)數(shù)的多個(gè)第一數(shù)組,多個(gè)第一數(shù)組分別從多個(gè)從節(jié)點(diǎn)中獲取,且分別基于樣本集中不同的分批樣本的樣本特征得到,然后按照預(yù)定的方式,針對(duì)多個(gè)第一數(shù)組進(jìn)行逐級(jí)數(shù)組合并,直至最后一級(jí)數(shù)組合并;其中任意一級(jí)數(shù)組合并包括:針對(duì)包含兩個(gè)數(shù)組中各項(xiàng)的特征值集合,進(jìn)行權(quán)重值進(jìn)行合并、偽項(xiàng)填充操作得到合并數(shù)組,并將合并數(shù)組寫入內(nèi)存,采用不經(jīng)意訪問方式,從內(nèi)存中讀取最后一級(jí)數(shù)組合并得到的合并數(shù)組中除若干個(gè)偽項(xiàng)之外的項(xiàng),基于從該合并數(shù)組中讀取的各項(xiàng)確定所述第一屬性項(xiàng)的特征分位點(diǎn)。
技術(shù)領(lǐng)域
本說明書一個(gè)或多個(gè)實(shí)施例涉及數(shù)據(jù)安全技術(shù)領(lǐng)域,尤其涉及一種分布式集群中的樣本特征分位點(diǎn)確定方法及裝置。
背景技術(shù)
在需要對(duì)數(shù)據(jù)進(jìn)行處理的各個(gè)應(yīng)用領(lǐng)域中,數(shù)據(jù)安全問題備受關(guān)注。可信執(zhí)行環(huán)境(Trusted Execution Environment,TEE)能夠提供獨(dú)立于操作系統(tǒng)的執(zhí)行環(huán)境,通過將高安全敏感的應(yīng)用與通用軟件環(huán)境隔離開,來提供安全保護(hù)。例如,基于軟件保護(hù)擴(kuò)展(Software Guard Extensions,SGX)技術(shù)制造的可信圍圈(Enclave)等等。可信執(zhí)行環(huán)境技術(shù)通常采用硬件隔離機(jī)制,在計(jì)算平臺(tái)中隔離出包含CPU和內(nèi)存的安全區(qū)域,并且內(nèi)存中的加密數(shù)據(jù)只在CPU內(nèi)部可見。這種可信執(zhí)行環(huán)境技術(shù)能夠提供比較安全的數(shù)據(jù)計(jì)算服務(wù)。運(yùn)行在TEE中的多個(gè)可信計(jì)算節(jié)點(diǎn)可以構(gòu)成分布式集群,分布式集群能夠提供更高性能的計(jì)算服務(wù)。
當(dāng)在TEE中執(zhí)行針對(duì)網(wǎng)絡(luò)模型的訓(xùn)練或其他應(yīng)用處理時(shí),CPU可以預(yù)先對(duì)樣本數(shù)據(jù)進(jìn)行一定的處理,例如可以對(duì)樣本特征進(jìn)行分箱,即可以根據(jù)分位點(diǎn)對(duì)多個(gè)樣本特征的特征值進(jìn)行分組,并將每一組視為一個(gè)類別值。在一個(gè)例子中,針對(duì)從1到50構(gòu)成的年齡集合,通過分位點(diǎn)15、25、35可以將該年齡集合分成4個(gè)分箱。進(jìn)行分箱之后的樣本特征,能夠?yàn)槟P陀?xùn)練帶來很多性能提升。而在確定樣本特征中某個(gè)屬性項(xiàng)的分位點(diǎn)時(shí),CPU需要頻繁地從內(nèi)存中讀取樣本數(shù)據(jù)。當(dāng)樣本數(shù)據(jù)屬于非常重要的隱私數(shù)據(jù)時(shí),利用可信執(zhí)行環(huán)境對(duì)樣本數(shù)據(jù)進(jìn)行處理時(shí)的安全性要求會(huì)更高。
因此,希望能有改進(jìn)的方案,可以在TEE環(huán)境下更加安全地確定樣本特征的分位點(diǎn)。
發(fā)明內(nèi)容
本說明書一個(gè)或多個(gè)實(shí)施例描述了分布式集群中的樣本特征分位點(diǎn)確定方法及裝置,可以在TEE環(huán)境下更加安全地確定樣本特征的分位點(diǎn)。具體的技術(shù)方案如下。
第一方面,實(shí)施例提供了一種分布式集群中的樣本特征分位點(diǎn)確定方法,用于確定樣本特征中第一屬性項(xiàng)的特征分位點(diǎn),所述分布式集群包括處于TEE中的主節(jié)點(diǎn)和多個(gè)從節(jié)點(diǎn);所述方法通過所述主節(jié)點(diǎn)的CPU執(zhí)行,所述主節(jié)點(diǎn)還包括內(nèi)存;所述方法包括:
從所述內(nèi)存中分別讀取具有設(shè)定項(xiàng)數(shù)的多個(gè)第一數(shù)組,所述多個(gè)第一數(shù)組分別從多個(gè)從節(jié)點(diǎn)中獲取,且分別基于樣本集中不同的分批樣本的樣本特征得到,所述第一數(shù)組中任意一項(xiàng)包括樣本的第一屬性項(xiàng)的特征值與對(duì)應(yīng)的權(quán)重值;
按照預(yù)定的方式,針對(duì)所述多個(gè)第一數(shù)組進(jìn)行逐級(jí)數(shù)組合并,直至最后一級(jí)數(shù)組合并;其中任意一級(jí)數(shù)組合并包括:針對(duì)包含兩個(gè)數(shù)組中各項(xiàng)的特征值集合,將其中值大小相同的特征值對(duì)應(yīng)的權(quán)重值進(jìn)行合并,得到合并序列;在所述合并序列中填充若干個(gè)偽項(xiàng)以得到填充序列,使得填充序列的項(xiàng)數(shù)為該兩個(gè)數(shù)組的項(xiàng)數(shù)之和,任意一個(gè)偽項(xiàng)包含預(yù)設(shè)特征值與對(duì)應(yīng)的預(yù)設(shè)權(quán)重值;基于所述填充序列形成合并數(shù)組,并將所述合并數(shù)組寫入所述內(nèi)存;
采用不經(jīng)意訪問方式,從所述內(nèi)存中讀取最后一級(jí)數(shù)組合并得到的合并數(shù)組中除若干個(gè)偽項(xiàng)之外的項(xiàng),并基于從該合并數(shù)組中讀取的各項(xiàng)確定所述第一屬性項(xiàng)的特征分位點(diǎn)。
在一種實(shí)施方式中,所述第一數(shù)組為對(duì)應(yīng)的從節(jié)點(diǎn)對(duì)初始數(shù)組進(jìn)行權(quán)重值合并、偽項(xiàng)填充后得到的;所述第一數(shù)組包含多個(gè)真實(shí)項(xiàng)和若干個(gè)偽項(xiàng);所述從所述內(nèi)存中分別讀取具有設(shè)定項(xiàng)數(shù)的多個(gè)第一數(shù)組的步驟,包括:
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于支付寶(杭州)信息技術(shù)有限公司,未經(jīng)支付寶(杭州)信息技術(shù)有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011233423.X/2.html,轉(zhuǎn)載請(qǐng)聲明來源鉆瓜專利網(wǎng)。
- 一種集群調(diào)度呼叫業(yè)務(wù)中主叫終端信息顯示方法
- 更新網(wǎng)絡(luò)流量管理設(shè)備同時(shí)維持有效性
- 與集群調(diào)度系統(tǒng)進(jìn)行通信的方法、群集接入網(wǎng)關(guān)及系統(tǒng)
- 一種管理集群通信系統(tǒng)資源的方法
- 基于Kubernetes和OpenStack容器云平臺(tái)多集群構(gòu)建方法、介質(zhì)、設(shè)備
- 一種容災(zāi)系統(tǒng)、容災(zāi)處理方法、監(jiān)控節(jié)點(diǎn)和備份集群
- 一種ETCD集群恢復(fù)方法、系統(tǒng)、設(shè)備及計(jì)算機(jī)介質(zhì)
- 混合云場(chǎng)景下保證可用集群數(shù)量的方法、裝置及系統(tǒng)
- 一種集群拓?fù)涓路椒ā⑾到y(tǒng)、設(shè)備及計(jì)算機(jī)存儲(chǔ)介質(zhì)
- 集群切換方法、集群切換裝置、電子設(shè)備及可讀存儲(chǔ)介質(zhì)
- 樣本引入裝置、樣本引入基片和樣本引入方法
- 樣本查找方法、裝置及系統(tǒng)
- 模型訓(xùn)練、樣本平衡方法及裝置以及個(gè)人信用評(píng)分系統(tǒng)
- 樣本輸送系統(tǒng)、樣本輸送方法以及樣本檢測(cè)系統(tǒng)
- 樣本分析裝置、樣本檢測(cè)設(shè)備及樣本檢測(cè)方法
- 樣本檢測(cè)方法、樣本檢測(cè)裝置及樣本檢測(cè)系統(tǒng)
- 樣本架、樣本混勻系統(tǒng)及樣本分析儀
- 樣本收集管及樣本收集系統(tǒng)
- 樣本數(shù)據(jù)集的擴(kuò)容方法及模型的訓(xùn)練方法
- 行人重識(shí)別的噪聲樣本識(shí)別方法、裝置、設(shè)備和存儲(chǔ)介質(zhì)





