[發明專利]一種職位構圖和自動聚類方法有效
| 申請號: | 201910100896.3 | 申請日: | 2019-01-31 |
| 公開(公告)號: | CN109829500B | 公開(公告)日: | 2023-05-02 |
| 發明(設計)人: | 蔡毅;張建南;謝浩然 | 申請(專利權)人: | 華南理工大學 |
| 主分類號: | G06F18/23213 | 分類號: | G06F18/23213;G06F18/15;G06F18/2323;G06F18/25;G06F16/901;G06Q10/1053 |
| 代理公司: | 廣州粵高專利商標代理有限公司 44102 | 代理人: | 何淑珍;江裕強 |
| 地址: | 510640 廣*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 職位 構圖 自動 方法 | ||
1.一種職位構圖和自動聚類方法,其特征在于,包括:
預定義的一套職位特征模板;
從招聘網站中收集半結構化的職位樣本數據,提取特征信息填充職位特征模板;
從收集的半結構化的職位樣本數據中提取公司類型信息;
利用網頁鏈接信息構造職位網絡;
對職位網絡采用隨機游走采樣得到樣本路徑;
利用語言模型訓練節點的分布式表示;
融合職位節點的分布式表示和特征模板上的特征信息作為職位特征;
采用K-means算法對職位樣本進行聚類。
2.根據權利要求1所述的方法,其特征在于所述的預定義一套職位特征模板包括月薪、工作時長、工作經驗、學歷要求、英語水平要求、獎金水平、是否購買五險一金。
3.根據權利要求1所述的方法,其特征在于所述的從招聘網站中收集半結構化的職位樣本數據,提取特征信息填充職位模板,包括:
對類別特征的缺失值填充“unknown”,對數值型特征的缺失值填充預定義的默認值;
使用箱型圖和邏輯回歸神經網絡兩種方法辨識和去除噪音;
使用z值法對數據標準化。
4.根據權利要求1所述的方法,其特征在于從收集的半結構化職位樣本數據中提取公司類型信息,
若職位樣本數據中有所屬公司,則記錄公司名稱;若職位樣本數據中還有所屬公司的行業類別信息,則記錄公司名稱對應的行業類別屬性,否則以“unknown”填充該公司名稱的行業類別屬性。
5.根據權利要求1所述的方法,其特征在于:所述的利用網頁鏈接信息構造職位網絡包括:
構造的職位網絡為異形圖,以職位以及公司作為節點;
利用招聘網頁上的職位之間的鏈接信息、公司與職位之間的連接信息,公司與公司之間的鏈接信息構建節點之間邊的權重。
6.根據權利要求1所述的方法,其特征在于隨機游走算法以節點與該節點的鄰接節點之間的邊的權重作為從節點到該節點的鄰接節點的采樣概率。
7.根據權利要求1所述的方法,其特征在于利用語言模型訓練訓練節點的分布式表示中,
使用以長短期記憶網絡(LSTM)作為基本單元的循環神經網絡(RNN)作為語言模型。
8.根據權利要求1所述的方法,其特征在于所述融合職位節點的分布式表示和特征模板上的特征信息中,拼接使用語言模型學習得到的分布式表示以及職位模板中的特征值。
9.根據權利要求1所述的方法,其特征在于所述采用K-means算法進行聚類包括:
類的數量K由公司行業類別種類數量決定;K個聚類中心的初始值的分布式表示由對應行業類別的所有公司的分布式表示決定,特征值部分隨機初始化。
10.根據權利要求1所述的方法,其特征在于所述語言模型采用神經語言模型,以長短期記憶網絡(LSTM)作為基本單元的循環神經網絡(RNN)實現。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于華南理工大學,未經華南理工大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910100896.3/1.html,轉載請聲明來源鉆瓜專利網。





