[發(fā)明專利]基于互聯(lián)網(wǎng)的人才信息定向抓取方法在審
| 申請(qǐng)?zhí)枺?/td> | 202010984080.4 | 申請(qǐng)日: | 2020-09-18 |
| 公開(公告)號(hào): | CN112307290A | 公開(公告)日: | 2021-02-02 |
| 發(fā)明(設(shè)計(jì))人: | 張書華;張雪丹 | 申請(qǐng)(專利權(quán))人: | 深圳啟迪生涯科技有限公司 |
| 主分類號(hào): | G06F16/951 | 分類號(hào): | G06F16/951;G06F16/9536;G06Q10/10 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 518100 廣東省深圳市福田區(qū)華*** | 國(guó)省代碼: | 廣東;44 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 基于 互聯(lián)網(wǎng) 人才 信息 定向 抓取 方法 | ||
1.基于互聯(lián)網(wǎng)的人才信息定向抓取方法,其特征在于:包括以下步驟:
步驟1:抓取配置:將爬蟲分布在實(shí)行抓取操作的主機(jī)上,通過主機(jī)控制爬蟲,設(shè)置單個(gè)或多個(gè)人才網(wǎng)站的抓取配置信息,然后通過主機(jī)控制抓取信息的爬蟲進(jìn)入目標(biāo)人才網(wǎng)站;
步驟2:抓取文本:先根據(jù)抓取配置信息利用各個(gè)人才網(wǎng)站自帶的篩選功能進(jìn)行初步的個(gè)人簡(jiǎn)歷篩選,減少抓取的工作量,然后根據(jù)抓取配置信息從人才網(wǎng)站內(nèi)抓取下載篩選后的文本數(shù)據(jù),下載的文本數(shù)據(jù)包括網(wǎng)頁文本數(shù)據(jù)、word文本數(shù)據(jù)和PDF文本數(shù)據(jù);
步驟3:初步篩選:對(duì)抓取下載的文本數(shù)據(jù)進(jìn)行整理和篩選,首先刪除無效的或空白的文本數(shù)據(jù),接著刪除存在大量信息殘缺的文本數(shù)據(jù),文本數(shù)據(jù)整理和篩選完成后,保留剩余的文本數(shù)據(jù),然后將保留下的文本數(shù)據(jù)作為原始文本數(shù)據(jù)儲(chǔ)存至原始數(shù)據(jù)庫;
步驟4:編譯轉(zhuǎn)換:對(duì)原始文本數(shù)據(jù)中的信息進(jìn)行編譯轉(zhuǎn)換,主要是對(duì)原始文本數(shù)據(jù)中的圖片、表格和文字信息等進(jìn)行編譯轉(zhuǎn)換,各種格式的原始文本數(shù)據(jù)需要編譯轉(zhuǎn)換成統(tǒng)一的相關(guān)程序可以識(shí)別的通用文本數(shù)據(jù),然后將編譯轉(zhuǎn)換后的通用文本數(shù)據(jù)存儲(chǔ)進(jìn)入索引數(shù)據(jù)庫;
步驟5:人才篩選:將專用的篩選器載入索引數(shù)據(jù)庫,使用者可以按照學(xué)歷專業(yè)、職稱、工作經(jīng)歷、掌握技能、年齡等標(biāo)準(zhǔn)在篩選器中進(jìn)行篩選,從而得到相應(yīng)的人才信息。
2.根據(jù)權(quán)利要求1所述的基于互聯(lián)網(wǎng)的人才信息定向抓取方法,其特征在于:所述在步驟1中,抓取的對(duì)象設(shè)置為應(yīng)聘者發(fā)布的個(gè)人簡(jiǎn)歷,且要求是近一年內(nèi)更新或刷新過的個(gè)人簡(jiǎn)歷。
3.根據(jù)權(quán)利要求1所述的基于互聯(lián)網(wǎng)的人才信息定向抓取方法,其特征在于:所述在步驟2中,初步篩選以學(xué)歷、技能篩選為主,年齡和工作時(shí)間篩選為輔。
4.根據(jù)權(quán)利要求1所述的基于互聯(lián)網(wǎng)的人才信息定向抓取方法,其特征在于:所述在步驟2中,抓取下載的文本數(shù)據(jù)以word文本數(shù)據(jù)和PDF文本數(shù)據(jù)最優(yōu),網(wǎng)頁文本數(shù)據(jù)次之。
5.根據(jù)權(quán)利要求1所述的基于互聯(lián)網(wǎng)的人才信息定向抓取方法,其特征在于:所述在步驟3中,原始文本數(shù)據(jù)儲(chǔ)存進(jìn)入原始數(shù)據(jù)庫前需要進(jìn)行冗余判斷,刪除數(shù)據(jù)信息重復(fù)的文本數(shù)據(jù)。
6.根據(jù)權(quán)利要求1所述的基于互聯(lián)網(wǎng)的人才信息定向抓取方法,其特征在于:所述在步驟4中,先對(duì)儲(chǔ)存進(jìn)入索引數(shù)據(jù)庫的通用文本數(shù)據(jù)按照學(xué)歷進(jìn)行初步分類,形成初步分類集,然后再對(duì)初步分類集內(nèi)部的通用文本數(shù)據(jù)按照技能進(jìn)行再次分類,最后將分類好的信息進(jìn)行儲(chǔ)存。
7.根據(jù)權(quán)利要求1所述的基于互聯(lián)網(wǎng)的人才信息定向抓取方法,其特征在于:所述在步驟4中,通用文本數(shù)據(jù)便是個(gè)人簡(jiǎn)歷,內(nèi)部信息按照統(tǒng)一的模板進(jìn)行分布,個(gè)人簡(jiǎn)歷編譯轉(zhuǎn)換時(shí)應(yīng)將全部的圖片、表格和文字等信息全部轉(zhuǎn)換。
8.根據(jù)權(quán)利要求1所述的基于互聯(lián)網(wǎng)的人才信息定向抓取方法,其特征在于:所述在步驟4中,編譯轉(zhuǎn)換后的通用文本數(shù)據(jù)存儲(chǔ)進(jìn)入索引數(shù)據(jù)庫后,對(duì)儲(chǔ)存進(jìn)入索引數(shù)據(jù)庫的通用文本數(shù)據(jù)進(jìn)行冗余判斷,刪除數(shù)據(jù)信息重復(fù)的文本數(shù)據(jù)。
9.根據(jù)權(quán)利要求1所述的基于互聯(lián)網(wǎng)的人才信息定向抓取方法,其特征在于:所述在步驟4中,索引數(shù)據(jù)庫內(nèi)部的通用文本數(shù)據(jù)與原始數(shù)據(jù)庫內(nèi)部對(duì)應(yīng)的原始文本數(shù)據(jù)進(jìn)行超鏈接,并將超鏈接儲(chǔ)存進(jìn)入通用文本數(shù)據(jù)。
10.根據(jù)權(quán)利要求1所述的基于互聯(lián)網(wǎng)的人才信息定向抓取方法,其特征在于:所述在步驟5中,還可以將索引數(shù)據(jù)庫內(nèi)部的信息整合成Excel文本,使用者只需啟動(dòng)Excel文本閱讀軟件的篩選功能,便能按照需要進(jìn)行檢索。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于深圳啟迪生涯科技有限公司,未經(jīng)深圳啟迪生涯科技有限公司許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010984080.4/1.html,轉(zhuǎn)載請(qǐng)聲明來源鉆瓜專利網(wǎng)。
- 基于網(wǎng)絡(luò)電視的互聯(lián)網(wǎng)業(yè)務(wù)處理方法和系統(tǒng)
- 互聯(lián)網(wǎng)業(yè)務(wù)接入網(wǎng)關(guān)的實(shí)現(xiàn)方法和系統(tǒng)
- 一種互聯(lián)網(wǎng)電視終端安全訪問互聯(lián)網(wǎng)的方法
- 一種互聯(lián)網(wǎng)應(yīng)用交互方法、裝置及系統(tǒng)
- 一種使用互聯(lián)網(wǎng)移動(dòng)攝像終端進(jìn)行異地圖像拍攝的系統(tǒng)
- 一種網(wǎng)絡(luò)電視終端安全訪問互聯(lián)網(wǎng)的方法
- 利用區(qū)塊鏈保護(hù)用于互聯(lián)網(wǎng)資源分配的事務(wù)
- 互聯(lián)網(wǎng)廣告裝置及方法
- 中央管理服務(wù)器的互聯(lián)網(wǎng)連接方法及系統(tǒng)
- 互聯(lián)網(wǎng)節(jié)點(diǎn)中信任傳播方法、系統(tǒng)及相關(guān)產(chǎn)品
- 一種基于大數(shù)據(jù)的海外人才信息管理系統(tǒng)和方法
- 基于人才服務(wù)系統(tǒng)的信息處理系統(tǒng)及方法
- 一種城市人才資源綜合管理方法
- 一種電子簡(jiǎn)歷管理系統(tǒng)
- 人才數(shù)量預(yù)測(cè)方法和裝置、設(shè)備、計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)
- 人力資本產(chǎn)業(yè)體系架構(gòu)方法
- 一種多維度人才評(píng)價(jià)的背景調(diào)查方法及其系統(tǒng)
- 基于大數(shù)據(jù)互聯(lián)網(wǎng)的海外人才管理平臺(tái)
- 一種基于坐標(biāo)象限圖的人才流動(dòng)分類統(tǒng)計(jì)控制方法
- 一種人才圖像標(biāo)識(shí)庫建立方法、系統(tǒng)及云平臺(tái)
- 信息記錄介質(zhì)、信息記錄方法、信息記錄設(shè)備、信息再現(xiàn)方法和信息再現(xiàn)設(shè)備
- 信息記錄裝置、信息記錄方法、信息記錄介質(zhì)、信息復(fù)制裝置和信息復(fù)制方法
- 信息記錄裝置、信息再現(xiàn)裝置、信息記錄方法、信息再現(xiàn)方法、信息記錄程序、信息再現(xiàn)程序、以及信息記錄介質(zhì)
- 信息記錄裝置、信息再現(xiàn)裝置、信息記錄方法、信息再現(xiàn)方法、信息記錄程序、信息再現(xiàn)程序、以及信息記錄介質(zhì)
- 信息記錄設(shè)備、信息重放設(shè)備、信息記錄方法、信息重放方法、以及信息記錄介質(zhì)
- 信息存儲(chǔ)介質(zhì)、信息記錄方法、信息重放方法、信息記錄設(shè)備、以及信息重放設(shè)備
- 信息存儲(chǔ)介質(zhì)、信息記錄方法、信息回放方法、信息記錄設(shè)備和信息回放設(shè)備
- 信息記錄介質(zhì)、信息記錄方法、信息記錄裝置、信息再現(xiàn)方法和信息再現(xiàn)裝置
- 信息終端,信息終端的信息呈現(xiàn)方法和信息呈現(xiàn)程序
- 信息創(chuàng)建、信息發(fā)送方法及信息創(chuàng)建、信息發(fā)送裝置





