[發(fā)明專利]一種數(shù)據(jù)處理方法及裝置在審
| 申請?zhí)枺?/td> | 202011383257.1 | 申請日: | 2020-11-30 |
| 公開(公告)號: | CN112329070A | 公開(公告)日: | 2021-02-05 |
| 發(fā)明(設(shè)計(jì))人: | 張磊;孫皓;李鵬;王明;張海洋 | 申請(專利權(quán))人: | 中國民航信息網(wǎng)絡(luò)股份有限公司 |
| 主分類號: | G06F21/62 | 分類號: | G06F21/62;G06F16/906 |
| 代理公司: | 北京集佳知識產(chǎn)權(quán)代理有限公司 11227 | 代理人: | 張柳 |
| 地址: | 100085 北*** | 國省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 數(shù)據(jù)處理 方法 裝置 | ||
1.一種數(shù)據(jù)處理方法,其特征在于,所述方法包括:
確定待處理數(shù)據(jù)集中作為簇的質(zhì)心的一條數(shù)據(jù);
根據(jù)所述待處理數(shù)據(jù)集中剩余的數(shù)據(jù)與所述質(zhì)心之間的距離,從所述剩余的數(shù)據(jù)中選取第一預(yù)設(shè)數(shù)量的數(shù)據(jù)加入所述簇中;
確定所述簇中敏感屬性字段具有的不同的敏感屬性值的個(gè)數(shù),所述敏感屬性字段為所述簇中具有隱私信息的內(nèi)容;
如果所述簇中敏感屬性字段具有的不同的敏感屬性值的個(gè)數(shù)小于預(yù)設(shè)個(gè)數(shù),根據(jù)所述待處理數(shù)據(jù)集中沒有加入所述簇中的數(shù)據(jù)與所述質(zhì)心之間的距離,從沒有加入所述簇中的數(shù)據(jù)中選取數(shù)據(jù)加入到所述簇中,直至所述簇中敏感屬性字段具有的不同的敏感屬性值的個(gè)數(shù)等于或大于所述預(yù)設(shè)個(gè)數(shù)。
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述確定待處理數(shù)據(jù)集中作為簇的質(zhì)心的一條數(shù)據(jù)包括:
如果所述簇為所述待處理數(shù)據(jù)集對應(yīng)的第一個(gè)簇,從所述待處理數(shù)據(jù)集中隨機(jī)選取一條數(shù)據(jù)作為所述第一個(gè)簇的質(zhì)心;
如果所述簇為所述待處理數(shù)據(jù)集對應(yīng)的第二個(gè)簇,根據(jù)所述待處理數(shù)據(jù)集中沒有加入所述第一個(gè)簇的數(shù)據(jù)與所述第一個(gè)簇的質(zhì)心之間的距離,從所述待處理數(shù)據(jù)集中沒有加入所述第一個(gè)簇的數(shù)據(jù)中選取一條數(shù)據(jù)作為所述第二個(gè)簇的質(zhì)心;
如果所述簇為所述待處理數(shù)據(jù)集對應(yīng)的所述第一個(gè)簇和所述第二個(gè)簇之外的簇,根據(jù)所述待處理數(shù)據(jù)集中沒有加入已有簇的數(shù)據(jù)與所述已有簇的質(zhì)心之間的距離和,從所述待處理數(shù)據(jù)集中沒有加入已有簇的數(shù)據(jù)中選取一條數(shù)據(jù)作為所述簇的質(zhì)心。
3.根據(jù)權(quán)利要求2所述的方法,其特征在于,所述根據(jù)所述待處理數(shù)據(jù)集中沒有加入已有簇的數(shù)據(jù)與所述已有簇的質(zhì)心之間的距離和,從所述待處理數(shù)據(jù)集中沒有加入已有簇的數(shù)據(jù)中選取一條數(shù)據(jù)作為所述簇的質(zhì)心包括:
根據(jù)所述待處理數(shù)據(jù)集中沒有加入已有簇的數(shù)據(jù)與所述已有簇的質(zhì)心之間的距離和,從沒有加入已有簇的數(shù)據(jù)中確定距離和最大的數(shù)據(jù);
將所述距離和最大的數(shù)據(jù)作為所述簇的質(zhì)心。
4.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述方法還包括:
如果所述簇中敏感屬性字段具有的不同的敏感屬性值的個(gè)數(shù)大于或等于所述預(yù)設(shè)個(gè)數(shù),完成對所述待處理數(shù)據(jù)集的一次聚類以得到所述簇,并確定所述待處理數(shù)據(jù)集中沒有加入已有簇的數(shù)據(jù)的數(shù)量;
如果所述待處理數(shù)據(jù)集中沒有加入已有簇的數(shù)據(jù)的數(shù)量大于或等于第二預(yù)設(shè)數(shù)量,返回執(zhí)行確定待處理數(shù)據(jù)集中作為簇的質(zhì)心的一條數(shù)據(jù),以繼續(xù)進(jìn)行所述待處理數(shù)據(jù)集對應(yīng)的下一個(gè)簇的聚類;
如果所述待處理數(shù)據(jù)集中沒有加入已有簇的數(shù)據(jù)的數(shù)量小于所述第二預(yù)設(shè)數(shù)量,根據(jù)沒有加入已有簇的數(shù)據(jù)與所述已有簇之間的距離,將沒有加入已有簇的數(shù)據(jù)加入到已有簇中。
5.根據(jù)權(quán)利要求1至4中任意一項(xiàng)所述的方法,其特征在于,所述方法還包括:
根據(jù)原始數(shù)據(jù)集中每條數(shù)據(jù)的缺失值,對所述原始數(shù)據(jù)集中的數(shù)據(jù)進(jìn)行缺失值處理,得到修正數(shù)據(jù)集;
確定所述修正數(shù)據(jù)集中的分類型數(shù)據(jù)以及所述修正數(shù)據(jù)集中的數(shù)值型數(shù)據(jù),對所述分類型數(shù)據(jù)和所述數(shù)值型數(shù)據(jù)進(jìn)行泛化處理;
將泛化處理后的數(shù)據(jù)和所述修正數(shù)據(jù)集中的其他類型數(shù)據(jù)作為所述待處理數(shù)據(jù)集中的數(shù)據(jù)。
6.一種數(shù)據(jù)處理裝置,其特征在于,所述裝置包括:
第一確定單元,用于確定待處理數(shù)據(jù)集中作為簇的質(zhì)心的一條數(shù)據(jù);
聚類單元,用于根據(jù)所述待處理數(shù)據(jù)集中剩余的數(shù)據(jù)與所述質(zhì)心之間的距離,從所述剩余的數(shù)據(jù)中選取第一預(yù)設(shè)數(shù)量的數(shù)據(jù)加入所述簇中;
第二確定單元,用于確定所述簇中敏感屬性字段具有的不同的敏感屬性值的個(gè)數(shù),所述敏感屬性字段為所述簇中具有隱私信息的內(nèi)容;
添加單元,用于如果所述簇中敏感屬性字段具有的不同的敏感屬性值的個(gè)數(shù)小于預(yù)設(shè)個(gè)數(shù),根據(jù)所述待處理數(shù)據(jù)集中沒有加入所述簇中的數(shù)據(jù)與所述質(zhì)心之間的距離,從沒有加入所述簇中的數(shù)據(jù)中選取數(shù)據(jù)加入到所述簇中,直至所述簇中敏感屬性字段具有的不同的敏感屬性值的個(gè)數(shù)等于或大于所述預(yù)設(shè)個(gè)數(shù)。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于中國民航信息網(wǎng)絡(luò)股份有限公司,未經(jīng)中國民航信息網(wǎng)絡(luò)股份有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011383257.1/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 同類專利
- 專利分類
G06F 電數(shù)字?jǐn)?shù)據(jù)處理
G06F21-00 防止未授權(quán)行為的保護(hù)計(jì)算機(jī)或計(jì)算機(jī)系統(tǒng)的安全裝置
G06F21-02 .通過保護(hù)計(jì)算機(jī)的特定內(nèi)部部件
G06F21-04 .通過保護(hù)特定的外圍設(shè)備,如鍵盤或顯示器
G06F21-06 .通過感知越權(quán)操作或外圍侵?jǐn)_
G06F21-20 .通過限制訪問計(jì)算機(jī)系統(tǒng)或計(jì)算機(jī)網(wǎng)絡(luò)中的節(jié)點(diǎn)
G06F21-22 .通過限制訪問或處理程序或過程
- 數(shù)據(jù)處理設(shè)備,數(shù)據(jù)處理方法,和數(shù)據(jù)處理程序
- 數(shù)據(jù)處理電路、數(shù)據(jù)處理裝置、數(shù)據(jù)處理方法、數(shù)據(jù)處理控制方法
- 數(shù)據(jù)處理設(shè)備、數(shù)據(jù)處理方法和數(shù)據(jù)處理程序
- 數(shù)據(jù)處理裝置、數(shù)據(jù)處理方法及數(shù)據(jù)處理程序
- 數(shù)據(jù)處理裝置、數(shù)據(jù)處理方法及計(jì)算機(jī)可讀取的記錄介質(zhì)
- 數(shù)據(jù)處理裝置、數(shù)據(jù)處理方法和數(shù)據(jù)處理程序
- 數(shù)據(jù)處理裝置、數(shù)據(jù)處理方法和數(shù)據(jù)處理程序
- 數(shù)據(jù)處理裝置、數(shù)據(jù)處理方法以及數(shù)據(jù)處理程序
- 數(shù)據(jù)處理裝置、數(shù)據(jù)處理方法以及數(shù)據(jù)處理程序
- 數(shù)據(jù)處理裝置、數(shù)據(jù)處理方法和數(shù)據(jù)處理程序





