[發明專利]無參數的k均值聚類方法在審
| 申請號: | 201810553412.6 | 申請日: | 2018-06-01 |
| 公開(公告)號: | CN108764359A | 公開(公告)日: | 2018-11-06 |
| 發明(設計)人: | 侯濤;劉富;康冰;劉云;李丁園;姜守坤;王柯;苗巖;梁藝馨 | 申請(專利權)人: | 吉林大學 |
| 主分類號: | G06K9/62 | 分類號: | G06K9/62 |
| 代理公司: | 吉林長春新紀元專利代理有限責任公司 22100 | 代理人: | 白冬冬 |
| 地址: | 130012 吉*** | 國省代碼: | 吉林;22 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 駕駛 人體生物特征 數據處理技術 待分類數據 分類數據集 安全行駛 保障車輛 分類識別 分類數據 駕駛行為 聚類分析 疲勞駕駛 汽車駕駛 輸出結果 大數據 離散度 聚類 偏好 預警 采集 篩選 圖像 分類 汽車 決策 分析 | ||
1.一種無參數的k均值聚類方法,其特征在于:
第一步計算待分類數據集中各個數據點的密度;
第二步計算分類數據集中各個數據點的離散度;
第三步篩選初始類中心和聚類數;
第四步是用傳統k-mean進行聚類分析并輸出結果。
2.根據權利要求1所述的無參數的k均值聚類方法,其特征在于:所述的計算待分類數據集中各個數據點的密度:
(1)先計算數據集中每個數據點xi的鄰域密度,具體計算方法如下:
對計算數據點xi的鄰域U(xi)={xj|xj∈X and dij≤dl}(i≠j),其中dij=d(xi,xj),表示兩個數據點i和j之間的歐式距離;距離閾值dl定義為數據集X中樣本之間所有距離的平均值的1/10,可表示為:
(2)數據集X中的任意樣本點xi的密度定義為點xi的鄰域U(xi)內所包含樣本點的歐式距離之和,可表達為:計算每個數據點xi的密度deni之后,用以下公式對其進行歸一化處理:d1i=deni/max(deni)。
3.根據權利要求1所述的無參數的k均值聚類方法,其特征在于:所述的計算分類數據集中各個數據點的離散度:即數據集X中各個數據點xi的離散度ρi,
密度最大的數據點的離散度ρi設定為該點與數據集X中所有點的最大距離,公式表達為:
ρi=max(dij) (2)
對其它數據點,若存在比該點密度高的數據點,則選擇與其他高密度點之間的最小距離來衡量該點的離散度ρi,公式表達為:
ρi=min(dij) (3)
計算每個數據點xi的離散度ρi之后,用以下公式對其進行歸一化處理:
d2i=ρi/max(ρi) (4)。
4.根據權利要求1所述的無參數的k均值聚類方法,其特征在于:所述的篩選初始類中心和聚類數:即初始聚類中心{c1,c2,…,ck}、聚類數k,
(1)以歸一化后的密度和離散度組成一個向量(d1i,d2i),用來評估數據點xi是否是候選聚類中心;
(2)計算該點與其最近鄰的5個點的距離之和Di,
篩選出那些Di值大于2倍均方差的點作為初始聚類中心{c1,c2,…,ck}。
5.根據權利要求1所述的無參數的k均值聚類方法,其特征在于:所述的聚類分析是對待分類數據集X進行聚類分析,
預估初始聚類中心值{c1,c2,…,ck},以及初始聚類中心數k,作為k-mean算法的初始輸入參數,實現對多類數據集的無參數聚類分析。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于吉林大學,未經吉林大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810553412.6/1.html,轉載請聲明來源鉆瓜專利網。





