[發(fā)明專利]大數(shù)據(jù)處理方法、裝置、計算機設(shè)備及存儲介質(zhì)有效
| 申請?zhí)枺?/td> | 202011620084.0 | 申請日: | 2020-12-30 |
| 公開(公告)號: | CN112667754B | 公開(公告)日: | 2021-09-28 |
| 發(fā)明(設(shè)計)人: | 趙妮;蔡金成 | 申請(專利權(quán))人: | 深圳信息職業(yè)技術(shù)學(xué)院 |
| 主分類號: | G06F16/28 | 分類號: | G06F16/28 |
| 代理公司: | 深圳眾鼎專利商標代理事務(wù)所(普通合伙) 44325 | 代理人: | 譚果林 |
| 地址: | 518172 廣東省深*** | 國省代碼: | 廣東;44 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 數(shù)據(jù)處理 方法 裝置 計算機 設(shè)備 存儲 介質(zhì) | ||
1.一種大數(shù)據(jù)處理方法,其特征在于,包括:
獲取大數(shù)據(jù)及其聚類結(jié)果;
計算所述聚類結(jié)果的EPV值,根據(jù)所述EPV值和所述大數(shù)據(jù)的數(shù)據(jù)規(guī)模確定所述大數(shù)據(jù)的劃分個數(shù);
根據(jù)K-Fold方法和所述聚類結(jié)果將所述大數(shù)據(jù)劃分為若干個數(shù)據(jù)塊,所述數(shù)據(jù)塊的個數(shù)為所述劃分個數(shù);
計算各個所述數(shù)據(jù)塊的聚類結(jié)果的評價數(shù)據(jù);
根據(jù)所述數(shù)據(jù)塊的聚類結(jié)果的評價數(shù)據(jù)確定所述大數(shù)據(jù)的聚類結(jié)果的評價數(shù)據(jù);
所述劃分個數(shù)w滿足以下約束條件:
且
其中,w為劃分個數(shù),INT表示向下取整,為大數(shù)據(jù)中類別i的個數(shù)且類別i為個數(shù)最小的類別,為第t個數(shù)據(jù)塊中類別i的個數(shù)且第t個數(shù)據(jù)塊為類別i個數(shù)最少的數(shù)據(jù)塊,m為大數(shù)據(jù)的特征個數(shù)。
2.如權(quán)利要求1所述的大數(shù)據(jù)處理方法,其特征在于,所述計算所述聚類結(jié)果的EPV值,包括:
通過EPV計算公式處理所述聚類結(jié)果,生成所述EPV值,所述EPV計算公式包括:
其中,EPV即為EPV值,用于評價聚類結(jié)果的穩(wěn)定性;
為大數(shù)據(jù)中類別1的數(shù)據(jù)量,為大數(shù)據(jù)中類別2的數(shù)據(jù)量,為大數(shù)據(jù)中類別k的數(shù)據(jù)量,k為類別數(shù),m為大數(shù)據(jù)的特征個數(shù),min指的是取最小值。
3.如權(quán)利要求1所述的大數(shù)據(jù)處理方法,其特征在于,所述根據(jù)K-Fold方法和所述聚類結(jié)果將所述大數(shù)據(jù)劃分為若干個數(shù)據(jù)塊,包括:
獲取處理所述大數(shù)據(jù)的內(nèi)存資源數(shù)據(jù);
判斷所述內(nèi)存資源數(shù)據(jù)是否滿足所述數(shù)據(jù)塊的計算需求;
若所述內(nèi)存資源數(shù)據(jù)不滿足所述數(shù)據(jù)塊的計算需求,輸出提醒信息。
4.如權(quán)利要求1所述的大數(shù)據(jù)處理方法,其特征在于,所述劃分個數(shù)大于或等于2。
5.如權(quán)利要求1所述的大數(shù)據(jù)處理方法,其特征在于,當(dāng)所述劃分個數(shù)大于2時,所述EPV值大于10。
6.如權(quán)利要求1所述的大數(shù)據(jù)處理方法,其特征在于,所述數(shù)據(jù)塊的聚類結(jié)果的評價數(shù)據(jù)為輪廓系數(shù)。
7.一種大數(shù)據(jù)處理裝置,其特征在于,包括:
獲取模塊,用于獲取大數(shù)據(jù)及其聚類結(jié)果;
確定劃分個數(shù)模塊,用于計算所述聚類結(jié)果的EPV值,根據(jù)所述EPV值和所述大數(shù)據(jù)的數(shù)據(jù)規(guī)模確定所述大數(shù)據(jù)的劃分個數(shù);
數(shù)據(jù)劃分模塊,用于根據(jù)K-Fold方法和所述聚類結(jié)果將所述大數(shù)據(jù)劃分為若干個數(shù)據(jù)塊,所述數(shù)據(jù)塊的個數(shù)為所述劃分個數(shù);
分塊計算模塊,用于計算各個所述數(shù)據(jù)塊的聚類結(jié)果的評價數(shù)據(jù);
整體聚類評價模塊,用于根據(jù)所述數(shù)據(jù)塊的聚類結(jié)果的評價數(shù)據(jù)確定所述大數(shù)據(jù)的聚類結(jié)果的評價數(shù)據(jù);
所述劃分個數(shù)w滿足以下約束條件:
且
其中,w為劃分個數(shù),INT表示向下取整,為大數(shù)據(jù)中類別i的個數(shù)且類別i為個數(shù)最小的類別,為第t個數(shù)據(jù)塊中類別i的個數(shù)且第t個數(shù)據(jù)塊為類別i個數(shù)最少的數(shù)據(jù)塊,m為大數(shù)據(jù)的特征個數(shù)。
8.一種計算機設(shè)備,包括存儲器、處理器以及存儲在所述存儲器中并可在所述處理器上運行的計算機可讀指令,其特征在于,所述處理器執(zhí)行所述計算機可讀指令時實現(xiàn)如權(quán)利要求1至6中任一項所述大數(shù)據(jù)處理方法。
9.一個或多個存儲有計算機可讀指令的可讀存儲介質(zhì),所述計算機可讀指令被一個或多個處理器執(zhí)行時,使得所述一個或多個處理器執(zhí)行如權(quán)利要求1至6中任一項所述大數(shù)據(jù)處理方法。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于深圳信息職業(yè)技術(shù)學(xué)院,未經(jīng)深圳信息職業(yè)技術(shù)學(xué)院許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011620084.0/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 數(shù)據(jù)處理設(shè)備,數(shù)據(jù)處理方法,和數(shù)據(jù)處理程序
- 數(shù)據(jù)處理電路、數(shù)據(jù)處理裝置、數(shù)據(jù)處理方法、數(shù)據(jù)處理控制方法
- 數(shù)據(jù)處理設(shè)備、數(shù)據(jù)處理方法和數(shù)據(jù)處理程序
- 數(shù)據(jù)處理裝置、數(shù)據(jù)處理方法及數(shù)據(jù)處理程序
- 數(shù)據(jù)處理裝置、數(shù)據(jù)處理方法及計算機可讀取的記錄介質(zhì)
- 數(shù)據(jù)處理裝置、數(shù)據(jù)處理方法和數(shù)據(jù)處理程序
- 數(shù)據(jù)處理裝置、數(shù)據(jù)處理方法和數(shù)據(jù)處理程序
- 數(shù)據(jù)處理裝置、數(shù)據(jù)處理方法以及數(shù)據(jù)處理程序
- 數(shù)據(jù)處理裝置、數(shù)據(jù)處理方法以及數(shù)據(jù)處理程序
- 數(shù)據(jù)處理裝置、數(shù)據(jù)處理方法和數(shù)據(jù)處理程序





