[發明專利]一種根據人群聚類結果進行分析的方法及裝置在審
| 申請號: | 201510982002.X | 申請日: | 2015-12-23 |
| 公開(公告)號: | CN106910080A | 公開(公告)日: | 2017-06-30 |
| 發明(設計)人: | 楊詩;向園;洪春曉;呂俊 | 申請(專利權)人: | 北京奇虎科技有限公司;奇智軟件(北京)有限公司 |
| 主分類號: | G06Q30/02 | 分類號: | G06Q30/02;G06K9/62 |
| 代理公司: | 北京華沛德權律師事務所11302 | 代理人: | 房德權 |
| 地址: | 100088 北京市西城區新*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 根據 人群 結果 進行 分析 方法 裝置 | ||
技術領域
本發明涉及數據處理技術領域,尤其涉及一種根據人群聚類結果進行分析的方法及裝置。
背景技術
隨著網絡技術的發展,人們在網絡上留下了各種操作痕跡,例如人們會根據自己的需要在網絡上購買商品,也會點擊網頁中的廣告并購買商品等等,這些所有的操作痕跡,包括用戶留下的個人信息如年齡信息、性別信息等等,都會被搜錄到相應的大數據中,以對人群的消費傾向進行分析。
目前,通常使用聚類算法對這類大數據進行分析來獲得人群的消費傾向,從而為企業的產品生產提供數據支持,例如,在對樣本集S{S1,S2,S3…Sn}中的樣本進行聚類時,采用如下第一種方案:在K次迭代中,對于任意一個樣本Si,求其到聚類中心集M{M1,M2…Mj…Mk}中各個聚類中心點的距離,將該Si劃分到距離最近的聚類中心點所在的類集中;利用均值的方法,更新聚類中心集M中的聚類中心點;計算本次迭代產生的類集與上次迭代產生的類集之間的差值,直到該差值滿足預置誤差條件為止。
此方法在進行計算聚類中心點的聚類集時,需要將樣本集S中的每個樣本分別與聚類中心集M中的每個聚類中心點進行距離計算,即需要進行n*k次點對點的距離計算,計算量較大,耗時較長。
為了解決上述第一種方案存在的計算量大,耗時較長的問題目前現有技術中還提供了第二種方案,該方案相對于第一種方案將Si劃分到距離最近的聚類中心點所在類集的操作過程進行了改進,改進的方案具體如下:計算聚類中心集M{M1,M2…Mj…Mk}中任意兩個聚類中心點之間的距離,并保存;通 過三角形不等式原理,即計算Luj與2Lui之間的距離,其中,Luj為聚類中心點Mu與聚類中心點Mj之間的距離,其中,聚類中心點Mu為Si與當前距離Si最近的聚類中心點,聚類中心點Mj為當前遍歷過程中待遍歷的的聚類中心點,Lui為Si與聚類中心點Mu之間的距離;若Luj大于或者等于2Liu,忽略掉聚類中心點Mj,并繼續遍歷下一個聚類中心點,或者,遍歷完成后,將該Si劃分到Mu所在的類集中;若Luj小于2Liu,則計算Si與Mj之間的距離Lij,其中,Lij為樣本點Si與聚類中心點Mj之間的距離;當Lij小于Lui時,設置Lui=Lij,Mu=Mj,繼續遍歷下一個聚類中心點,或者,遍歷完成后,將該Si劃分到Mu所在的類集中。
通過上述兩種方案,即能夠通過對大數據進行聚類而獲得大數據中的聚類信息,但是,在實施第二種方案時,發明人發現其存在如下問題:在判斷某個聚類中心點是否為樣本的聚類中心點時,在確定出樣本Si與聚類中心集M中最近的聚類中心點Mu之后,基于三角形不等式原理,將聚類中心集M中不可能是Si的聚類中心點進行丟棄,無需計算丟棄的聚類中心點與樣本Si之間的距離,能夠在一定程度上降低計算量,縮短計算時長;但是,對于一些聚類中心點較多,聚類更精細的需求而言,由于每次迭代過程均需要計算聚類中心點兩兩之間的距離,導致計算量較大,耗時較長。
因此,現有技術中聚類算法存在因每次迭代過程均需要計算聚類中心點兩兩之間的距離而導致計算量較大,耗時較長的技術問題。
發明內容
本發明實施例通過提供一種根據人群聚類結果進行分析的方法及裝置,用以解決現有技術中聚類算法存在的因每次迭代過程均需要計算聚類中心點兩兩之間的距離而導致計算量較大,耗時較長的技術問題。
本發明實施例第一方面提供了一種根據人群聚類結果進行分析的方法,其特征在于,包括:
獲得針對人群的樣本集以及所述樣本集的聚類中心集,所述樣本集中每個樣本點包括人群中對應的個人的描述信息,所述描述信息至少包括年齡信息、性別信息、愛好信息和消費金額信息;
針對所述樣本集中的每一個樣本點,依次遍歷聚類中心集中的每一個聚類中心點,確定所述每一個樣本點與所述聚類中心集中距離最近的聚類中心點,并將所述每一個樣本點劃分到所述聚類中心集中距離最近的聚類中心點對應的集合中,獲得所述聚類中心集中的每一個聚類中心點對應的聚類集;
獲得所述聚類集中樣本點的平均值,并根據所述平均值更新所述聚類中心集;
根據第一聚類中心點上一次更新前后的自身差值獲取第一距離的預測值;其中,所述第一距離為需要進行數據聚類的樣本點與所述第一聚類中心點之間的距離,所述第一聚類中心點為聚類距離遍歷中與所述樣本點距離最近的聚類中心點;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京奇虎科技有限公司;奇智軟件(北京)有限公司,未經北京奇虎科技有限公司;奇智軟件(北京)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201510982002.X/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:掛壁式粘捕飛蟲燈外殼
- 下一篇:易熔合金噴頭





