[發(fā)明專利]一種職位構(gòu)圖和自動(dòng)聚類方法有效
| 申請(qǐng)?zhí)枺?/td> | 201910100896.3 | 申請(qǐng)日: | 2019-01-31 |
| 公開(公告)號(hào): | CN109829500B | 公開(公告)日: | 2023-05-02 |
| 發(fā)明(設(shè)計(jì))人: | 蔡毅;張建南;謝浩然 | 申請(qǐng)(專利權(quán))人: | 華南理工大學(xué) |
| 主分類號(hào): | G06F18/23213 | 分類號(hào): | G06F18/23213;G06F18/15;G06F18/2323;G06F18/25;G06F16/901;G06Q10/1053 |
| 代理公司: | 廣州粵高專利商標(biāo)代理有限公司 44102 | 代理人: | 何淑珍;江裕強(qiáng) |
| 地址: | 510640 廣*** | 國(guó)省代碼: | 廣東;44 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 職位 構(gòu)圖 自動(dòng) 方法 | ||
本發(fā)明公開了一種職位構(gòu)圖和自動(dòng)聚類方法。此方法適用于大規(guī)模網(wǎng)絡(luò)職位數(shù)據(jù)的分類。本發(fā)明首先預(yù)定義一套職位特征模板。然后從招聘網(wǎng)站中收集半結(jié)構(gòu)化的職位樣本數(shù)據(jù),提取特征信息填充職位模板,并提取公司類型信息,同時(shí)利用網(wǎng)頁(yè)鏈接信息構(gòu)造職位網(wǎng)絡(luò)。對(duì)職位網(wǎng)絡(luò)采用隨機(jī)游走采樣得到樣本路徑,再利用語(yǔ)言模型訓(xùn)練節(jié)點(diǎn)的分布式表示。最后融合職位節(jié)點(diǎn)的分布式表示和結(jié)構(gòu)化特征信息,采用K?means算法進(jìn)行聚類。
技術(shù)領(lǐng)域
本發(fā)明涉及機(jī)器學(xué)習(xí)技術(shù)領(lǐng)域,具體涉及一種職位構(gòu)圖和自動(dòng)聚類方法。
背景技術(shù)
網(wǎng)頁(yè)上每天都會(huì)發(fā)布無數(shù)職位信息。在多數(shù)網(wǎng)絡(luò)招聘平臺(tái)上,新職位會(huì)根據(jù)各自的標(biāo)準(zhǔn)被分類。以http://51job.com為例,新的職位信息被分類為行業(yè)類別和職能類別。然而,當(dāng)求職者瀏覽不同招聘平臺(tái)上的大量職位的時(shí)候,由于不存在一個(gè)統(tǒng)一的分類標(biāo)準(zhǔn),導(dǎo)致求職者不能客觀理性地比較來自不同平臺(tái)的職位。一個(gè)能夠提供根據(jù)統(tǒng)一分類標(biāo)準(zhǔn)對(duì)異源的職位分類的公開的系統(tǒng)不僅方便了求職者,也為就業(yè)和經(jīng)濟(jì)數(shù)據(jù)統(tǒng)計(jì)提供了一個(gè)珍貴的全局視野。
目前大多數(shù)有關(guān)職位信息處理的專利關(guān)于給求職者進(jìn)行職位推薦。但是,進(jìn)行職位聚類的技術(shù)暫時(shí)還有待開發(fā)。Feng?XU的”A?Method?of?Position?Recommendation?toJob?Seekers?and?a?Position?Recommendation?System”(專利號(hào)CN103294816A)對(duì)表示求職者和職位的勝任度的競(jìng)爭(zhēng)力進(jìn)行排序來進(jìn)行推薦。Fei?Wang的“Knowledge?BasedPosition?Recommendation?System”(專利號(hào)CN104834668A)公開了一個(gè)利用求職者勝任度以及從社交媒體信息得到的求職者喜好來進(jìn)行推薦的系統(tǒng)。
對(duì)職位進(jìn)行統(tǒng)一聚類仍然是一個(gè)空白的領(lǐng)域。這個(gè)領(lǐng)域急需一種跨平臺(tái)的職位聚類方法來滿足求職者的需求。
發(fā)明內(nèi)容
本發(fā)明的目的在于克服現(xiàn)有技術(shù)存在的上述不足,提供了一種職位構(gòu)圖和自動(dòng)聚類方法。此方法適用于大規(guī)模網(wǎng)絡(luò)職位數(shù)據(jù)的分類。
本發(fā)明的一種職位構(gòu)圖和自動(dòng)聚類方法包括:首先預(yù)定義一套職位特征模板。然后從招聘網(wǎng)站中收集半結(jié)構(gòu)化的職位樣本數(shù)據(jù),提取特征信息填充職位模板,并提取公司類型信息,同時(shí)利用網(wǎng)頁(yè)鏈接信息構(gòu)造職位網(wǎng)絡(luò)。對(duì)職位網(wǎng)絡(luò)采用隨機(jī)游走采樣得到樣本路徑,再利用語(yǔ)言模型訓(xùn)練節(jié)點(diǎn)的分布式表示。最后融合職位節(jié)點(diǎn)的分布式表示和特征模板上的特征信息,采用K-means算法進(jìn)行聚類。
在一些實(shí)施方式中,預(yù)定義的一套職位特征模板,其中,模板的特征包括月薪、工作時(shí)長(zhǎng)、工作經(jīng)驗(yàn)、學(xué)歷要求、英語(yǔ)水平要求、獎(jiǎng)金水平、是否購(gòu)買五險(xiǎn)一金等。
在一些實(shí)施方式中,其中,從招聘網(wǎng)站中收集半結(jié)構(gòu)化的職位樣本數(shù)據(jù),提取特征信息填充職位模板。首先利用網(wǎng)絡(luò)爬蟲獲取職位網(wǎng)頁(yè)數(shù)據(jù),然后從獲取的網(wǎng)頁(yè)數(shù)據(jù)中提取與特征模板中的特征相對(duì)應(yīng)的數(shù)值對(duì)特征模板進(jìn)行填充。對(duì)獲取的數(shù)據(jù)需要進(jìn)行填充缺失值、去燥、標(biāo)準(zhǔn)化等等一系列預(yù)處理。有很多種可能的方法來填補(bǔ)缺失值,比如使用均值填充,使用最可能值來填充或者使用人工確定的值來填充等等。因?yàn)楫愒礃颖镜穆毼坏亩鄻有裕0逯械暮芏鄐lot很可能是缺失的。因此,“unknown”值在數(shù)據(jù)集中是很普遍,這就使得“unknown”值具有統(tǒng)計(jì)意義。因此,對(duì)于可能的情況,簡(jiǎn)單的把缺失值標(biāo)記為“unknown”。對(duì)于連續(xù)取值的屬性,用人工定義的默認(rèn)值填補(bǔ)缺失值。本發(fā)明使用兩種方法來識(shí)別和去除異常點(diǎn)。這兩種方法是箱型圖和邏輯回歸神經(jīng)網(wǎng)絡(luò)。箱型圖是一種通過四分點(diǎn)描述連續(xù)的組數(shù)據(jù)的圖形化的方法。坐落在下四分點(diǎn)以外1.5個(gè)IQR和上四分點(diǎn)以外1.5個(gè)IQR之間的區(qū)域以外的樣本被視作異常點(diǎn)排除掉。余下的樣本被用于訓(xùn)練一個(gè)邏輯回歸神經(jīng)網(wǎng)絡(luò)。造成大于閾值的損失的樣本會(huì)從數(shù)據(jù)集中移除。本發(fā)明使用z值標(biāo)準(zhǔn)化方法來標(biāo)準(zhǔn)化數(shù)據(jù)集。在統(tǒng)計(jì)學(xué)中,z值是一個(gè)有符號(hào)的標(biāo)準(zhǔn)差。這個(gè)標(biāo)準(zhǔn)差表示數(shù)據(jù)點(diǎn)偏離正在被觀察和衡量的變量的均值的方向和程度。使用一個(gè)把輸入映射到其z值的映射函數(shù)來處理數(shù)據(jù)值中的每一個(gè)樣本的特征。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于華南理工大學(xué),未經(jīng)華南理工大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910100896.3/2.html,轉(zhuǎn)載請(qǐng)聲明來源鉆瓜專利網(wǎng)。
- 自動(dòng)構(gòu)圖支持裝置及方法
- 數(shù)字圖像處理裝置中提供構(gòu)圖信息的方法和設(shè)備
- 系統(tǒng)設(shè)計(jì)裝置
- 輔助影像拍攝的構(gòu)圖裝置及數(shù)碼相機(jī)
- 一種移動(dòng)終端圖片查看方法及系統(tǒng)
- 卷紙構(gòu)圖
- 照片拍攝的構(gòu)圖方法、構(gòu)圖裝置及計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)
- 輔助拍攝方法、終端設(shè)備及計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)
- 一種異構(gòu)圖卷積網(wǎng)絡(luò)的訓(xùn)練方法、裝置、設(shè)備和介質(zhì)
- 構(gòu)圖方法,構(gòu)圖裝置,構(gòu)圖模板及構(gòu)圖模板制造方法
- 一種數(shù)據(jù)庫(kù)讀寫分離的方法和裝置
- 一種手機(jī)動(dòng)漫人物及背景創(chuàng)作方法
- 一種通訊綜合測(cè)試終端的測(cè)試方法
- 一種服裝用人體測(cè)量基準(zhǔn)點(diǎn)的獲取方法
- 系統(tǒng)升級(jí)方法及裝置
- 用于虛擬和接口方法調(diào)用的裝置和方法
- 線程狀態(tài)監(jiān)控方法、裝置、計(jì)算機(jī)設(shè)備和存儲(chǔ)介質(zhì)
- 一種JAVA智能卡及其虛擬機(jī)組件優(yōu)化方法
- 檢測(cè)程序中方法耗時(shí)的方法、裝置及存儲(chǔ)介質(zhì)
- 函數(shù)的執(zhí)行方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)





