[發(fā)明專利]智能化多線程聚類方法、裝置及計算機可讀存儲介質(zhì)在審
| 申請?zhí)枺?/td> | 201910846706.2 | 申請日: | 2019-09-06 |
| 公開(公告)號: | CN110717517A | 公開(公告)日: | 2020-01-21 |
| 發(fā)明(設(shè)計)人: | 陳善彪;尹浩 | 申請(專利權(quán))人: | 中國平安財產(chǎn)保險股份有限公司 |
| 主分類號: | G06K9/62 | 分類號: | G06K9/62;G06F16/2458 |
| 代理公司: | 44347 深圳市沃德知識產(chǎn)權(quán)代理事務所(普通合伙) | 代理人: | 高杰;于志光 |
| 地址: | 518000 廣東省深圳市福田區(qū)益田路*** | 國省代碼: | 廣東;44 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 聚類 預設(shè) 數(shù)據(jù)樣本 多線程 智能化 大小關(guān)系 塊數(shù)據(jù) 閾值時 計算機可讀存儲介質(zhì) 讀取 人工智能技術(shù) 接收用戶 聚類結(jié)果 聚類裝置 隨機確定 重新計算 重新確定 樣本集 線程 輸出 | ||
本發(fā)明涉及一種人工智能技術(shù),揭露了一種智能化多線程聚類方法,包括:接收用戶輸入的n個數(shù)據(jù)樣本集及聚類數(shù)K,根據(jù)所述聚類數(shù)K,隨機確定K個簇心,并將所述n個數(shù)據(jù)樣本集隨機分為K塊并輸入至K塊數(shù)據(jù)模塊中;K個線程讀取所述K塊數(shù)據(jù)模塊中的樣本集,并計算所述K個簇心和所述n個數(shù)據(jù)樣本集的損失值,判斷所述損失值與預設(shè)閾值的大小關(guān)系;當所述損失值大于所述預設(shè)閾值時,重新確定所述K個簇心,重新計算損失值并判斷與所述預設(shè)閾值的大小關(guān)系,當所述損失值小于所述預設(shè)閾值時,輸出所述K個簇心,完成聚類結(jié)果。本發(fā)明還提出一種智能化多線程聚類裝置以及一種計算機可讀存儲介質(zhì)。本發(fā)明可以實現(xiàn)精準的智能化多線程聚類功能。
技術(shù)領(lǐng)域
本發(fā)明涉及人工智能技術(shù)領(lǐng)域,尤其涉及一種基于多組輸入數(shù)據(jù)的智能化多線程聚類的方法、裝置及計算機可讀存儲介質(zhì)。
背景技術(shù)
聚類是信息檢索、數(shù)據(jù)挖掘中的一類重要技術(shù),是分析數(shù)據(jù)并從中發(fā)現(xiàn)有用信息的一種有效手段。它將數(shù)據(jù)對象分組成為多個類或簇,使得在同一個簇中的對象之間具有較高的相似度,而不同簇中的對象差別很大。Kmeans算法是最常用和最典型的聚類算法之一,該算法簡便且易于部署,通常被作為大樣本聚類分析的首選方案。傳統(tǒng)的Kmeans算法在聚類數(shù)據(jù)量不大的情況下,聚類過程一般在主機端使用單線程,在設(shè)備端使用單GPU過程來實現(xiàn)計算,但是在海量數(shù)據(jù)運算量的情況下運行效率較低,無法快速收斂,計算耗時較大,在一定程度上限制了Kmeans算法的應用。
發(fā)明內(nèi)容
本發(fā)明提供一種智能化多線程聚類方法、裝置及計算機可讀存儲介質(zhì),其主要目的在于提供一種快速、精確的多線程聚類方案,可以縮短了計算耗時,加速了聚類進程。
為實現(xiàn)上述目的,本發(fā)明提供的一種智能化多線程聚類方法,包括:
步驟A:線程與數(shù)據(jù)模塊劃分區(qū)接收用戶輸入的n個數(shù)據(jù)樣本集及聚類數(shù)K,并根據(jù)所述聚類數(shù)K將模型訓練層內(nèi)的線程數(shù)修改為K個,將數(shù)據(jù)存儲模塊分割為K塊,并根據(jù)固定線程讀取固定數(shù)據(jù)模塊原則,將所述K個線程與所述K塊數(shù)據(jù)模塊一一對應,將所述n個數(shù)據(jù)樣本集及聚類數(shù)K輸入至數(shù)據(jù)規(guī)劃層;
步驟B:所述數(shù)據(jù)規(guī)劃層根據(jù)所述聚類數(shù)K,隨機確定K個簇心,并將所述n個數(shù)據(jù)樣本集隨機分為K塊并分別隨機輸入至所述K塊數(shù)據(jù)模塊中;
步驟C:所述模型訓練層內(nèi)的K個線程數(shù)讀取所述K塊數(shù)據(jù)模塊中的樣本集,并根據(jù)最小化平方誤差算法,計算所述K個簇心和所述n個數(shù)據(jù)樣本集的損失值,并判斷所述損失值與預設(shè)閾值的大小關(guān)系;
步驟D:當所述損失值大于所述預設(shè)閾值時,計算所述n個數(shù)據(jù)樣本集與所述K個簇心的距離,重新確定所述K個簇心,并返回步驟C,當所述損失值小于所述預設(shè)閾值時,輸出所述K個簇心,完成聚類結(jié)果。
可選地,所述n個數(shù)據(jù)樣本集包括n個數(shù)據(jù)樣本集的坐標位置;
所述聚類數(shù)K小于或者等于所述數(shù)據(jù)樣本集的樣本數(shù)n。
可選地,所述隨機確定K個簇心包括:隨機確定所述K個簇心的樣本數(shù){c1,c2,c3,..ci..,cK}和K個簇心的質(zhì)心向量{μ1,μ2,μ3,..μi..,μK},其中,所述質(zhì)心向量μi的確定方法為:
其中,xt為所述n個數(shù)據(jù)樣本集內(nèi)的數(shù)據(jù)。
可選地,所述根據(jù)最小化平方誤差算法,計算所述K個簇心和所述n個數(shù)據(jù)樣本的損失值,包括:
將所述K個簇心的質(zhì)心向量與所述n個數(shù)據(jù)樣本集的坐標位置輸入至所述最小化平方誤差算法,利用所述最小化平方誤差算法計算出損失值E:
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于中國平安財產(chǎn)保險股份有限公司,未經(jīng)中國平安財產(chǎn)保險股份有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910846706.2/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 同類專利
- 專利分類
- 多線程應用系統(tǒng)的異常處理方法和異常處理裝置
- 一種面向片上網(wǎng)絡的多線程調(diào)度實現(xiàn)方法
- 基于計算機多線程多核顯微鏡細胞圖像快速掃描處理方法
- 一種基于同步鎖的多線程處理方法、終端以及存儲介質(zhì)
- 多線程并發(fā)處理系統(tǒng)及方法
- 海外控股估值流程控制方法、裝置、計算機設(shè)備及存儲介質(zhì)
- 讀數(shù)方法、電子裝置、計算機設(shè)備及存儲介質(zhì)
- 一種基于云平臺多線程調(diào)度的方法、系統(tǒng)、設(shè)備及介質(zhì)
- 一種基于云平臺的前端多線程調(diào)度方法和系統(tǒng)
- 多線程調(diào)度方法、裝置、電子設(shè)備及存儲介質(zhì)





