[發明專利]一種根據人群聚類結果進行分析的方法及裝置在審
| 申請號: | 201510982002.X | 申請日: | 2015-12-23 |
| 公開(公告)號: | CN106910080A | 公開(公告)日: | 2017-06-30 |
| 發明(設計)人: | 楊詩;向園;洪春曉;呂俊 | 申請(專利權)人: | 北京奇虎科技有限公司;奇智軟件(北京)有限公司 |
| 主分類號: | G06Q30/02 | 分類號: | G06Q30/02;G06K9/62 |
| 代理公司: | 北京華沛德權律師事務所11302 | 代理人: | 房德權 |
| 地址: | 100088 北京市西城區新*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 根據 人群 結果 進行 分析 方法 裝置 | ||
1.一種根據人群聚類結果進行分析的方法,其特征在于,包括:
獲得針對人群的樣本集以及所述樣本集的聚類中心集,所述樣本集中每個樣本點包括人群中對應的個人的描述信息,所述描述信息至少包括年齡信息、性別信息、愛好信息和消費金額信息;
針對所述樣本集中的每一個樣本點,依次遍歷聚類中心集中的每一個聚類中心點,確定所述每一個樣本點與所述聚類中心集中距離最近的聚類中心點,并將所述每一個樣本點劃分到所述聚類中心集中距離最近的聚類中心點對應的集合中,獲得所述聚類中心集中的每一個聚類中心點對應的聚類集;
獲得所述聚類集中樣本點的平均值,并根據所述平均值更新所述聚類中心集;
根據第一聚類中心點上一次更新前后的自身差值獲取第一距離的預測值;其中,所述第一距離為需要進行數據聚類的樣本點與所述第一聚類中心點之間的距離,所述第一聚類中心點為聚類距離遍歷中與所述樣本點距離最近的聚類中心點;
根據第二距離、所述第一聚類中心點上一次更新前后的自身差值以及第二聚類中心點上一次更新前后的自身差值獲取第三距離的預測值,其中,所述第二距離為上一次聚類距離遍歷過程中所述第一聚類中心點與第二聚類中心點之間的距離,所述第二聚類中心點為當前聚類距離遍歷過程中待遍歷的聚類中心點;
按照三角形不等式規則將所述第一距離的預測值與所述第三距離的預測值進行比較;
若所述第三距離的預測值大于或者等于兩倍的所述第一距離的預測值,則將所述第二聚類中心點丟棄,以便進行聚類距離遍歷時,不再計算所述樣本點與所述第二聚類中心點之間的距離以及所述第二聚類中心點與其他待遍歷聚類中心點之間的距離;
基于已丟棄所述第二聚類中心點的聚類中心集進行所述距離遍歷,獲得所述樣本集的聚類結果,所述聚類結果包括以所述年齡信息、所述性別信息、所述愛好信息和所述消費金額信息為基準維度對所述人群中的每一個人進行聚類后的聚類信息;
對所述聚類結果進行分析,獲得以所述年齡信息、所述性別信息、所述愛好信息和所述消費金額信息為基準維度的分析結果。
2.根據權利要求1所述的方法,其特征在于,在所述獲得以所述年齡信息、所述性別信息、所述愛好信息和所述消費金額信息為基準維度的分析結果之后,所述方法還包括:
以所述年齡信息、所述性別信息、所述愛好信息和所述消費金額信息為基準維度,通過條形統計圖、扇形統計圖、折線統計圖或網狀統計圖展示所述分析結果。
3.根據權利要求1所述的方法,其特征在于,所述獲得以所述年齡信息、所述性別信息、所述愛好信息和所述消費金額信息為基準維度的分析結果,具體包括:
獲得以所述年齡信息為主維度,以所述性別信息、所述愛好信息和所述消費金額信息為輔助維度的分析結果;或
獲得以所述性別信息為主維度,以所述年齡信息、所述愛好信息和所述消費金額信息為輔助維度的分析結果;或
獲得以所述愛好信息為主維度,以所述性別信息、所述年齡信息和所述消費金額信息為輔助維度的分析結果;或
獲得以所述消費金額信息為主維度,以所述性別信息、所述愛好信息和所述年齡信息為輔助維度的分析結果。
4.根據權利要求1所述的方法,其特征在于,所述方法還包括:
若所述第三距離的預測值小于兩倍的所述第一距離的預測值,則根據上一次更新后的所述第一聚類中心點對所述第二聚類中心點進行數據聚類處理。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京奇虎科技有限公司;奇智軟件(北京)有限公司,未經北京奇虎科技有限公司;奇智軟件(北京)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201510982002.X/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:掛壁式粘捕飛蟲燈外殼
- 下一篇:易熔合金噴頭





