[發明專利]一種基于多方聯合K均值建模的病例畫像方法及裝置有效
| 申請號: | 202210087944.1 | 申請日: | 2022-01-26 |
| 公開(公告)號: | CN114121206B | 公開(公告)日: | 2022-05-20 |
| 發明(設計)人: | 陸林 | 申請(專利權)人: | 中電云數智科技有限公司 |
| 主分類號: | G16H10/60 | 分類號: | G16H10/60;G16H50/70;G06K9/62;G06F21/57 |
| 代理公司: | 工業和信息化部電子專利中心 11010 | 代理人: | 焉明濤 |
| 地址: | 430100 湖北省武漢市經濟技術*** | 國省代碼: | 湖北;42 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 多方 聯合 均值 建模 病例 畫像 方法 裝置 | ||
本發明公開了一種基于多方聯合K均值建模的病例畫像方法及裝置,包括:經由所述主節點初始化K均值模型的K個均值向量后,將各均值向量加密廣播至各個子節點;各子節點:接收并解密多個均值向量后,遍歷該子節點配置的各樣本的特征向量與各均值向量之間的距離,確定該樣本的類別;按照確定的類別對各樣本進行分組,累加該組中各樣本的特征向量;將特征向量累加的結果和統計的樣本的數量經加密后發送至所述主節點;經由所述主節點基于各組的特征向量累加的結果以及各組的樣本的數量,更新各均值向量;執行迭代,完成K均值模型訓練。本發明方法聯合多TEE節點參與模型訓練,有效降低單一節點的計算資源開銷,減少甚至避免節點內存溢出的問題。
技術領域
本發明涉及數據處理技術,尤其涉及一種基于多方聯合K均值建模的病例畫像方法及裝置。
背景技術
傳統的無監督K均值聚類算法主要是數據集中式的訓練模式。該方式需要多個數據持有方共享其數據集中到某一處,但病例數據是分散在各個醫療機構中,例如對數據跨醫院的收集存在如下問題:1)數據持有方(例如醫療機構)不愿意或者受限于制度不能公開共享這些病例數據;2)診斷病例中包含患病者的姓名、性別、年齡、所在地等敏感信息,一旦這些信息在數據流轉與分析過程中泄露,將對患病個體帶來負面的影響。
可信執行環境(Trusted Execution Environment,TEE)是基于可信硬件的一種隱私計算技術,它通過開辟一片獨立的可信區域來確保數據與算法的完整性、安全性和一致性。利用可信執行環境,為促進多方共同參與K均值模型的隱私訓練提供了安全保障。然而,傳統的可信執行環境計算方式需要多方同時將加密數據傳輸給一個TEE結點,對通信負載造成較大的壓力,同時當多方數據集較大時對TEE的內存開銷也大,進行模型訓練時容易造成通信延遲、內存溢出的問題。
發明內容
本發明實施例提供一種基于多方聯合K均值建模的病例畫像方法及裝置,用以在主從架構下,聯合多節點參與模型訓練,不僅能夠保護診斷病例中用戶的隱私,還能有效降低單一TEE節點集中機密計算的資源開銷,減少甚至避免節點內存溢出的問題。
本發明實施例提供一種多方聯合的K均值模型訓練方法,應用于可信執行環境TEE,所述TEE中包括至少一個主節點以及多個與所述主節點連接的子節點,各子節點配置有訓練用的多個病例樣本;
所述K均值模型訓練方法包括:
經由所述主節點初始化所述K均值模型的K個均值向量后,將各均值向量加密廣播至各個子節點;
各子節點:
接收多個均值向量后,遍歷該子節點配置的各病例樣本的特征向量與各均值向量之間的距離,以利用距離最小的均值向量確定該病例樣本的類別;
按照確定的類別對各病例樣本進行分組,累加該組中各病例樣本的特征向量,以及,統計該組中病例樣本的數量;
將特征向量累加的結果和統計的病例樣本的數量發送至所述主節點;
經由所述主節點基于各組的特征向量累加的結果以及各組的病例樣本的數量,更新各均值向量;
執行迭代,完成K均值模型訓練。
在一些實施例中,主節點初始化所述K均值模型的K個均值向量之前,所述K均值模型訓練方法包括還包括:
所述主節點獲取各子節點上傳的該節點各病例樣本特征向量的局部特征最值;
基于所有節點的病例樣本特征向量的局部特征最值計算全局特征最值,以使得各子節點利用該全局特征最值對該子節點的病例樣本特征向量進行歸一化。
在一些實施例中,所述局部特征最值以及所述全局特征最值均包括相應的最大值和最小值。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中電云數智科技有限公司,未經中電云數智科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202210087944.1/2.html,轉載請聲明來源鉆瓜專利網。





