[發(fā)明專利]基于隨機(jī)抽樣的聚類可視化方法及裝置有效
| 申請?zhí)枺?/td> | 201911162904.3 | 申請日: | 2019-11-25 |
| 公開(公告)號(hào): | CN111027599B | 公開(公告)日: | 2023-07-04 |
| 發(fā)明(設(shè)計(jì))人: | 李虹鋒;樊丹 | 申請(專利權(quán))人: | 中國建設(shè)銀行股份有限公司 |
| 主分類號(hào): | G06F18/23213 | 分類號(hào): | G06F18/23213 |
| 代理公司: | 北京三友知識(shí)產(chǎn)權(quán)代理有限公司 11127 | 代理人: | 趙平;周永君 |
| 地址: | 100033 *** | 國省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 基于 隨機(jī) 抽樣 可視化 方法 裝置 | ||
本發(fā)明公開了一種基于隨機(jī)抽樣的聚類可視化方法及裝置,該方法包括:計(jì)算每個(gè)特征在每次隨機(jī)抽樣和總體樣本中的取值的概率分布的KL散度,并確定每個(gè)特征的KL散度的最大值;計(jì)算每個(gè)特征在每個(gè)所述聚類簇和總體樣本中的取值的概率分布的KL散度;根據(jù)每個(gè)特征在每個(gè)所述聚類簇和總體樣本中的取值的概率分布的KL散度以及所述每個(gè)特征的KL散度的最大值確定每個(gè)所述聚類簇中與總體樣本分布不相似的特征;根據(jù)每個(gè)所述聚類簇中與總體樣本分布不相似的特征對每個(gè)所述聚類簇進(jìn)行可視化輸出。本發(fā)明實(shí)現(xiàn)了減少可視化輸出時(shí)特征數(shù)量,重點(diǎn)突出了與總體樣本差異較大特征,便于數(shù)據(jù)分析人員對聚類結(jié)果進(jìn)行分析。
技術(shù)領(lǐng)域
本發(fā)明涉及聚類可視化領(lǐng)域,具體而言,涉及一種基于隨機(jī)抽樣的聚類可視化方法及裝置。
背景技術(shù)
聚類分析是根據(jù)在數(shù)據(jù)中發(fā)現(xiàn)的描述對象及其關(guān)系的信息,將數(shù)據(jù)對象分組。分組的目標(biāo)是,組內(nèi)對象相互之間是相似的(相關(guān)的),而不同組中的對象是不同的(不相關(guān)的)。組內(nèi)相似性越大,組間差距越大,說明聚類效果越好。聚類分析結(jié)果通常使用可視化圖來展示。
現(xiàn)有的聚類可視化分析中,通常使用直方圖、餅圖、散點(diǎn)圖等可視化技術(shù)分別展示聚類簇和總體各個(gè)特征的概率分布情況,需人工分辨簇中哪些特征與總體之間的差異較大,沒有統(tǒng)一的標(biāo)準(zhǔn)來衡量。此外,現(xiàn)有的聚類可視化方法需將所有特征的分布都繪制出來,以供人工分析聚類簇與總體樣本之間的差異,當(dāng)樣本特征數(shù)量比較大時(shí)必然導(dǎo)致可視化圖中包含許多無用特征(根據(jù)實(shí)際經(jīng)驗(yàn),大多數(shù)聚類模型的執(zhí)行結(jié)果中,聚類簇與總體樣本之間在大部分特征上的分布并無明顯差別),增加了數(shù)據(jù)分析人員的負(fù)擔(dān)。
發(fā)明內(nèi)容
本發(fā)明為了解決上述技術(shù)問題中的至少一個(gè),提供一種基于隨機(jī)抽樣的聚類可視化方法及裝置。
為了實(shí)現(xiàn)上述目的,根據(jù)本發(fā)明的一個(gè)方面,提供了一種基于隨機(jī)抽樣的聚類可視化方法,該方法包括:
獲取總體樣本中各特征的取值的概率分布;
對所述總體樣本執(zhí)行N次隨機(jī)抽樣,分別計(jì)算每次隨機(jī)抽樣中各特征的取值的概率分布;
根據(jù)總體樣本中各特征的取值的概率分布以及每次隨機(jī)抽樣中各特征的取值的概率分布分別計(jì)算每個(gè)特征在每次隨機(jī)抽樣和總體樣本中的取值的概率分布的KL散度,并確定每個(gè)特征的KL散度的最大值;
獲取對所述總體樣本進(jìn)行聚類生成的聚類簇,分別針對每個(gè)所述聚類簇計(jì)算各特征的取值的概率分布;
根據(jù)每個(gè)所述聚類簇對應(yīng)的各特征的取值的概率分布以及總體樣本中各特征的取值的概率分布計(jì)算每個(gè)特征在每個(gè)所述聚類簇和總體樣本中的取值的概率分布的KL散度;
根據(jù)每個(gè)特征在每個(gè)所述聚類簇和總體樣本中的取值的概率分布的KL散度以及所述每個(gè)特征的KL散度的最大值確定每個(gè)所述聚類簇中與總體樣本分布不相似的特征;
根據(jù)每個(gè)所述聚類簇中與總體樣本分布不相似的特征對每個(gè)所述聚類簇進(jìn)行可視化輸出。
可選的,該方法還包括:
對所述總體樣本中的所有連續(xù)型特征進(jìn)行離散化處理,得到連續(xù)型特征的離散化取值。
可選的,根據(jù)每個(gè)特征在每個(gè)所述聚類簇和總體樣本中的取值的概率分布的KL散度以及所述每個(gè)特征的KL散度的最大值確定每個(gè)所述聚類簇中與總體樣本分布不相似的特征,具體包括:
判斷每個(gè)所述聚類簇中每個(gè)特征的取值的概率分布和總體樣本中該特征的取值的概率分布的KL散度是否大于或等于該特征的KL散度的最大值;
若是,則確定該聚類簇中的該特征為與總體樣本分布不相似的特征。
可選的,所述根據(jù)每個(gè)所述聚類簇中與總體樣本分布不相似的特征對每個(gè)所述聚類簇進(jìn)行可視化輸出,具體包括:
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于中國建設(shè)銀行股份有限公司,未經(jīng)中國建設(shè)銀行股份有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201911162904.3/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 隨機(jī)數(shù)生成設(shè)備及控制方法、存儲(chǔ)器存取控制設(shè)備及通信設(shè)備
- 隨機(jī)接入方法、用戶設(shè)備、基站及系統(tǒng)
- 真隨機(jī)數(shù)檢測裝置及方法
- 隨機(jī)元素生成方法及隨機(jī)元素生成裝置
- 數(shù)據(jù)交互方法、裝置、服務(wù)器和電子設(shè)備
- 一種隨機(jī)數(shù)發(fā)生器的多隨機(jī)源管理方法
- 用于彩票行業(yè)的隨機(jī)數(shù)獲取方法及系統(tǒng)
- 隨機(jī)接入方法、裝置及存儲(chǔ)介質(zhì)
- 偽隨機(jī)方法、系統(tǒng)、移動(dòng)終端及存儲(chǔ)介質(zhì)
- 模型訓(xùn)練方法、裝置和計(jì)算設(shè)備
- 數(shù)據(jù)可視化模型的處理方法及裝置
- 一種可視化內(nèi)容分發(fā)方法及系統(tǒng)
- 數(shù)據(jù)可視化圖形快速應(yīng)用方法及系統(tǒng)
- 基于有效信息的流場可視化視圖量化方法
- 可視化報(bào)表的制作方法、裝置、終端設(shè)備及存儲(chǔ)介質(zhì)
- 一種可視化圖形快速應(yīng)用與傳輸?shù)姆椒跋到y(tǒng)
- 一種可視化數(shù)據(jù)模型編排系統(tǒng)和編排方法
- 一種供水行業(yè)機(jī)房3D可視化運(yùn)維管理系統(tǒng)
- 一種電網(wǎng)數(shù)據(jù)可視化方法、裝置、設(shè)備及介質(zhì)
- 一種大場景城市建筑實(shí)時(shí)三維可視化的方法





