[發明專利]聚類評估改進方法、裝置、計算機設備及存儲介質在審
| 申請號: | 202011093247.4 | 申請日: | 2020-10-12 |
| 公開(公告)號: | CN112232406A | 公開(公告)日: | 2021-01-15 |
| 發明(設計)人: | 馮文武;鄭曉峰 | 申請(專利權)人: | 上海移卓網絡科技有限公司 |
| 主分類號: | G06K9/62 | 分類號: | G06K9/62;G06Q30/02 |
| 代理公司: | 深圳市精英專利事務所 44242 | 代理人: | 曹祥波 |
| 地址: | 200000 上海市嘉定*** | 國省代碼: | 上海;31 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 評估 改進 方法 裝置 計算機 設備 存儲 介質 | ||
本發明公開了一種聚類評估改進方法、裝置、計算機設備及存儲介質,方法包括:獲取廣告業務用戶的聚類樣本,根據聚類樣本構建聚類樣本簇;分別計算聚類樣本與聚類樣本簇內的其他聚類樣本之間的距離值并構成距離向量;對距離向量進行歸一化,獲得權重向量,獲得加權平均值;獲取聚類樣本與聚類樣本簇內的其他聚類樣本之間的距離的加權平均值作為簇內的內聚度;將聚類樣本與距離最小的聚類樣本簇中所有聚類樣本之間的加權平均值作為與距離最小的聚類樣本簇的分離度;以分離度與內聚度之差為分子,以內聚度和分離度中最大值作為分母,將分數值作為評估系數。對廣告業務用戶的分類更加合理,提高了用戶識別,改善了算術平均值的均權效應。
技術領域
本發明涉及廣告數據處理的技術領域,尤其涉及一種聚類評估改進方法、裝置、計算機設備及存儲介質。
背景技術
在當前技術中,在廣告業務中,需要對用戶群體進行分類,以便于準確地做用戶營銷和運營,分類地準確性決定了效果地優劣,聚類常用的是k-means算法。然而當前對于廣告業務用戶進行k-means聚類時,聚類評估采取輪廓系數,其采用的是將廣告業務用戶樣本x與簇內的其他點之間的距離的平均值作為簇內的內聚度a,將樣本x與最近簇中所有點之間的平均值看作是與最近簇的分離度b,然后將簇的分離度與簇內聚度之差除以二者中比較大的數得到評估系數。平均值采取的是算數平均值,計算公式如下:其中,di表示第i組兩個樣本點的距離,表示距離的算數平均值。顯然,當前的計算方法未考慮個體權重對均數的影響,無法甄別出比較明顯的特征,因此不能凸顯極端值的效應,對于聚類評估存在較為顯著的不利影響。
公開于該背景技術部分的信息僅僅旨在加深對本發明的總體背景技術的理解,而不應當被視為承認或以任何形式暗示該信息構成已為本領域技術人員所公知的現有技術。
發明內容
本發明實施例提供了一種聚類評估改進方法、裝置、計算機設備及存儲介質,旨在通過改進現有的輪廓系數,對算數平均值替換為加權平均值,使聚類評估效果更為準確。
第一方面,本申請實施例提出了一種聚類評估改進方法,包括以下步驟:
獲取廣告業務用戶的聚類樣本,根據所述聚類樣本構建聚類樣本簇;
分別計算所述聚類樣本與聚類樣本簇內的其他聚類樣本之間的距離值并構成距離向量;
對所述距離向量進行歸一化處理,分別獲得單個距離值的權重值,將若干權重值構成權重向量;
將所述權重向量與距離向量相乘獲得的乘積作為加權平均值;
獲取所述聚類樣本與聚類樣本簇內的其他聚類樣本之間的距離的加權平均值作為簇內的內聚度;
將所述聚類樣本與距離最小的聚類樣本簇中所有聚類樣本之間的加權平均值作為與距離最小的聚類樣本簇的分離度;
以所述分離度與內聚度之差為分子,以所述內聚度和分離度中最大值作為分母,將分數值作為評估系數。
在一可能的實施方式中,所述距離向量包括若干組距離值。
在一可能的實施方式中,所述權重向量包括若干組權重值。
在一可能的實施方式中,選取值為1的評估系數作為最佳值。
在第二方面,本申請提出了一種聚類評估改進裝置,包括以下單元:
聚類樣本獲取單元,用于獲取廣告業務用戶的聚類樣本,根據所述聚類樣本構建聚類樣本簇;
距離向量構建單元,用于分別計算所述聚類樣本與聚類樣本簇內的其他聚類樣本之間的距離值并構成距離向量;
權重向量構建單元,用于對所述距離向量進行歸一化處理,分別獲得單個距離值的權重值,將若干權重值構成權重向量;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于上海移卓網絡科技有限公司,未經上海移卓網絡科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011093247.4/2.html,轉載請聲明來源鉆瓜專利網。





