[發明專利]基于K-Means算法改進的高頻職業技能生命曲線聚類方法在審
| 申請號: | 201911030748.5 | 申請日: | 2019-10-28 |
| 公開(公告)號: | CN110889431A | 公開(公告)日: | 2020-03-17 |
| 發明(設計)人: | 陳沖;司華友;萬健;吳浩鵬;張偉 | 申請(專利權)人: | 杭州電子科技大學 |
| 主分類號: | G06K9/62 | 分類號: | G06K9/62;G06Q50/00 |
| 代理公司: | 杭州君度專利代理事務所(特殊普通合伙) 33240 | 代理人: | 諸佩艷 |
| 地址: | 310018 浙*** | 國省代碼: | 浙江;33 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 means 算法 改進 高頻 職業技能 生命 曲線 方法 | ||
1.一種基于K-Means算法改進的高頻職業技能生命曲線聚類方法,其特征在于,其包括以下步驟:
1)采用WebMagic爬蟲系統爬取用戶信息形成用戶文檔庫;
2)采用MongoDB數據管理工具,挖掘高頻職業技能;
3)采用MongoDB數據管理工具,基于用戶之間的點贊關系,使用用戶年齡信息進行分段統計,構建高頻職業技能生命曲線;
4)使用密度峰算法選取K個職業技能生命曲線聚類中心;
5)使用K-Means算法對職業技能生命曲線進行聚類;
6)采用戴維森堡丁指數度量同一個類簇中數據點的緊密程度以及不同類的聚類中心的離散程度來評估聚類結果,評估不合格,增加職業技能生命曲線聚類中心的數量K,返回步驟4,評估合格則進入下一步;
7)基于評估結果,選取戴維森堡丁指數指標趨向穩定的K個初始聚類中心點進行聚類得到最終高頻職業技能生命曲線聚類結果。
2.根據權利要求1所述的基于K-Means算法改進的高頻職業技能生命曲線聚類方法,其特征在于:在步驟4)和步驟5)的過程中,通過皮爾森相關系數度量的方式,計算其中任意兩個職業技能生命曲線的相似度。
3.根據權利要求1所述的一種基于K-Means算法改進的高頻職業技能生命曲線聚類方法,其特征在于:所述的步驟1爬取的用戶信息包含用戶ID、用戶年齡、用戶掌握的職業技能、用戶每個職業技能擁有的點贊數。
4.根據權利要求1所述的一種基于K-Means算法改進的高頻職業技能生命曲線聚類方法,其特征在于:所述的步驟2高頻職業技能為擁有這項技能的人數占總人數的比例超過0.1%的技能。
5.根據權利要求1所述的一種基于K-Means算法改進的高頻職業技能生命曲線聚類方法,其特征在于:所述的步驟3高頻職業技能的生命曲線為該技能在不同年齡段中擁有的平均點贊數。
6.根據權利要求1所述的一種基于K-Means算法改進的高頻職業技能生命曲線聚類方法,其特征在于:所述的步驟4中初步設置職業技能生命曲線聚類中心的個數為2個;所述步驟6中,若評估不合格,每次增加的職業技能生命曲線聚類中心的數量1個。
7.根據權利要求2所述的一種基于K-Means算法改進的高頻職業技能生命曲線聚類方法,其特征在于:采用皮爾森相關系數計算兩個職業技能生命曲線的相似度的具體步驟為:
4.1)從兩個職業技能生命曲線中提取兩個變量X和Y,變量X和Y分別表示兩個職業技能生命曲線在各個年齡段的取值;
4.2)計算兩個變量X與Y的期望值μx與μy,期望值是指變量X和Y中,不同年齡段的平均點贊數之和與年齡段數量的商;
4.3)計算兩個變量X和Y的標準差σx和σy,
4.4)計算兩個變量線性相關程度的皮爾森相關系數ρ,
4.5)計算兩條職業技能生命曲線之間的距離,
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于杭州電子科技大學,未經杭州電子科技大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201911030748.5/1.html,轉載請聲明來源鉆瓜專利網。





