[發明專利]一種大數據聚類挖掘方法、平臺在審
| 申請號: | 202011169745.2 | 申請日: | 2020-10-28 |
| 公開(公告)號: | CN112286989A | 公開(公告)日: | 2021-01-29 |
| 發明(設計)人: | 陳寶;計春雷;李建敦;郝元峰 | 申請(專利權)人: | 上海電機學院 |
| 主分類號: | G06F16/2458 | 分類號: | G06F16/2458;G06K9/62;G06N3/04 |
| 代理公司: | 上海伯瑞杰知識產權代理有限公司 31227 | 代理人: | 孟旭彤 |
| 地址: | 200240 *** | 國省代碼: | 上海;31 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 數據 挖掘 方法 平臺 | ||
一種大數據聚類挖掘方法,包括以下步驟,獲得數據集,采用蟻群算法初始化聚類中心,選取初始聚類中心;計算數據到初始聚類中心的距離,將數據按照最大最小距離法進行分類;查看聚類中心是否變化,如果聚類中心變化則更新聚類中心,并再一次執行所述計算數據到聚類中心的距離的步驟。采用所述的大數據聚類挖掘方法進一步搭建智能大數據聚類挖掘平臺。
技術領域
本發明屬于大數據技術領域,特別涉及一種聚類分析方法中的大數據聚類挖掘方法。
背景技術
目前使用的聚類挖掘算法,多數情況下仍然基于K均值和模糊均值算法。但是這些算法隨著迭代次數的增加,并行效率越來越差,當結合實際條件時,不能夠保證海量數據的挖掘質量。這是由于,
第一,K均值算法很難確定K的取值,對噪音和異常點敏感,容易導致局部最優,從而導致聚類不準確;模糊C均值算法聚類類別數難以確定,對初始值敏感,收斂速度慢,容易導致局部最優,從而導致聚類不準確;
第二,由于K均值算法和模糊C均值算法隨著迭代次數的增加,其并行執行的效率會越來越差,復雜度高,耗費計算機資源,同時難以保證數據挖掘質量。
發明內容
本發明實施例之一,一種大數據聚類挖掘方法,包括以下步驟,獲得數據集,
采用蟻群算法初始化聚類中心,選取初始聚類中心;
計算數據到初始聚類中心的距離,將數據按照最大最小距離法進行分類;
查看聚類中心是否變化,如果聚類中心變化則更新聚類中心,并再一次執行所述計算數據到聚類中心的距離的步驟。
本發明提出一種改進的聚類挖掘方法,采用蟻群算法初始化聚類中心和基于密度的最大最小距離法更新聚類中心,提升了聚類精度與計算效率。
附圖說明
通過參考附圖閱讀下文的詳細描述,本發明示例性實施方式的上述以及其他目的、特征和優點將變得易于理解。在附圖中,以示例性而非限制性的方式示出了本發明的若干實施方式,其中:
圖1根據本發明實施例之一的大數據聚類挖掘方法中聚類中心更新流程圖。
具體實施方式
根據一個或者多個實施例,一種大數據聚類挖掘方法,使用蟻群算法實現大數據聚類挖掘技術,并與最大最小距離法相結合,以此來彌補在實際應用條件下,蟻群算法的數據分配不均,通過搭建智能大數據聚類挖掘平臺,以此來彌補在實際應用條件下,聚類效率的不足。具體步驟大致分為三步,先是初始化聚類中心,包括選取聚類中心;第二步開始更新聚類中心,通過與最大最小距離法相結合的方法,使得聚類中心能夠繼續優化,達到聚類準確的效果;第三步,主要是搭建智能大數據聚類挖掘平臺,提高聚類挖掘效率。
根據一個或者多個實施例,一種大數據聚類挖掘方法,為了避免隨機選取初始聚類中心出現聚類結果波動的情況,本實施例采用了添加蟻群算法的方法,即在初始化聚類中心時,將整個數據集視為尋找食物的螞蟻,將聚類過程看作是螞蟻尋找食物來源的過程,使得聚類中心更加準確,設有一個數據集Q={Q|qi1,qi2,…,qin},i=1,2,…,m,其中,n,m表示常數,具體計算公式如下:
式(1)中A,B——正常數;
κ——信息素殘留強度;
t——時刻;
λij(t)——t時刻的數據i和數據j之間信息素的大小;
式(2)中Cj——合并后的數據集;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于上海電機學院,未經上海電機學院許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011169745.2/2.html,轉載請聲明來源鉆瓜專利網。
- 數據顯示系統、數據中繼設備、數據中繼方法、數據系統、接收設備和數據讀取方法
- 數據記錄方法、數據記錄裝置、數據記錄媒體、數據重播方法和數據重播裝置
- 數據發送方法、數據發送系統、數據發送裝置以及數據結構
- 數據顯示系統、數據中繼設備、數據中繼方法及數據系統
- 數據嵌入裝置、數據嵌入方法、數據提取裝置及數據提取方法
- 數據管理裝置、數據編輯裝置、數據閱覽裝置、數據管理方法、數據編輯方法以及數據閱覽方法
- 數據發送和數據接收設備、數據發送和數據接收方法
- 數據發送裝置、數據接收裝置、數據收發系統、數據發送方法、數據接收方法和數據收發方法
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置





