[發明專利]基于互聯網的人才信息定向抓取方法在審
| 申請號: | 202010984080.4 | 申請日: | 2020-09-18 |
| 公開(公告)號: | CN112307290A | 公開(公告)日: | 2021-02-02 |
| 發明(設計)人: | 張書華;張雪丹 | 申請(專利權)人: | 深圳啟迪生涯科技有限公司 |
| 主分類號: | G06F16/951 | 分類號: | G06F16/951;G06F16/9536;G06Q10/10 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 518100 廣東省深圳市福田區華*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 互聯網 人才 信息 定向 抓取 方法 | ||
本發明公開了基于互聯網的人才信息定向抓取方法,包括以下步驟:抓取配置:將爬蟲分布在實行抓取操作的主機上,通過主機控制爬蟲,設置單個或多個人才網站的抓取配置信息,然后通過主機控制抓取信息的爬蟲進入目標人才網站;抓取文本:先根據抓取配置信息利用各個人才網站自帶的篩選功能進行初步的個人簡歷篩選,減少抓取的工作量,然后根據抓取配置信息從人才網站內抓取下載篩選后的文本數據,下載的文本數據包括網頁文本數據、word文本數據和PDF文本數據;在抓取簡歷后便進行了多次篩選,刪除了大量的問題簡歷,確保簡歷數據的整體質量,而且還對不同格式的簡歷進行了轉換,讓簡歷的格式統一,方便使用者進行人才篩選。
技術領域
本發明涉及信息處理技術領域,具體為基于互聯網的人才信息定向抓取方法。
背景技術
網絡招聘即基于Web的招聘,是利用包含各種特性和資源的超媒體求職招聘程序來創造一種有意義的求職招聘環境,在這種求職招聘環境中求職招聘得到促進和支持。
申請號為CN201810097482.5的專利公開了基于大數據的人才招聘系統及方法,發明公開了基于大數據的人才招聘系統及方法,涉及企業招聘領域。本發明包括如下步驟:S001、采集海量簡歷信息,創建人才大數據信息庫;S002、通過人才大數據信息庫訓練樣本;S003、深度學習訓練人才評分模型;S004、通過人才評分模型進行簡歷評分;S005、協同過濾算法互推人才和企業;S006、將人才能力信息可視化處理。本發明通過網絡爬蟲技術海量采集網站簡歷信息形成人才大數據庫,利用深度學習算法構建人才數據評分模型,采用協同推薦算法快速精準推薦企業招聘人才并建立可視化人才能力評分圖表,能夠準確的進行人才能力評估,提升了企業在線求職靈活度,幫助企業和個人實現快速匹配。
但是,該基于大數據的人才招聘系統及方法也存在很多的問題,影響使用,例如,其人才簡歷多是直接從各個招聘網站爬取,由于各個招聘網站的經營策略不同,其獲取的個人簡歷格式也不同,這給簡歷的篩選識別帶來麻煩,而且簡歷沒有經過檢測篩選便進入人才信息庫,簡歷質量參差不齊,簡歷重復缺項嚴重,給最后的人才篩選帶來麻煩,為此提出基于互聯網的人才信息定向抓取方法,來解決此問題。
發明內容
本發明的目的在于提供基于互聯網的人才信息定向抓取方法,解決了人才簡歷多是直接從各個招聘網站爬取,由于各個招聘網站的經營策略不同,其獲取的個人簡歷格式也不同,這給簡歷的篩選識別帶來麻煩,而且簡歷沒有經過檢測篩選便進入人才信息庫,簡歷質量參差不齊,簡歷重復缺項嚴重,給最后人才篩選帶來麻煩的問題。
為實現上述目的,本發明提供如下技術方案:基于互聯網的人才信息定向抓取方法,包括以下步驟:
步驟1:抓取配置:將爬蟲分布在實行抓取操作的主機上,通過主機控制爬蟲,設置單個或多個人才網站的抓取配置信息,然后通過主機控制抓取信息的爬蟲進入目標人才網站;
步驟2:抓取文本:先根據抓取配置信息利用各個人才網站自帶的篩選功能進行初步的個人簡歷篩選,減少抓取的工作量,然后根據抓取配置信息從人才網站內抓取下載篩選后的文本數據,下載的文本數據包括網頁文本數據、word文本數據和PDF文本數據;
步驟3:初步篩選:對抓取下載的文本數據進行整理和篩選,首先刪除無效的或空白的文本數據,接著刪除存在大量信息殘缺的文本數據,文本數據整理和篩選完成后,保留剩余的文本數據,然后將保留下的文本數據作為原始文本數據儲存至原始數據庫;
步驟4:編譯轉換:對原始文本數據中的信息進行編譯轉換,主要是對原始文本數據中的圖片、表格和文字信息等進行編譯轉換,各種格式的原始文本數據需要編譯轉換成統一的相關程序可以識別的通用文本數據,然后將編譯轉換后的通用文本數據存儲進入索引數據庫;
步驟5:人才篩選:將專用的篩選器載入索引數據庫,使用者可以按照學歷專業、職稱、工作經歷、掌握技能、年齡等標準在篩選器中進行篩選,從而得到相應的人才信息。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于深圳啟迪生涯科技有限公司,未經深圳啟迪生涯科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010984080.4/2.html,轉載請聲明來源鉆瓜專利網。
- 信息記錄介質、信息記錄方法、信息記錄設備、信息再現方法和信息再現設備
- 信息記錄裝置、信息記錄方法、信息記錄介質、信息復制裝置和信息復制方法
- 信息記錄裝置、信息再現裝置、信息記錄方法、信息再現方法、信息記錄程序、信息再現程序、以及信息記錄介質
- 信息記錄裝置、信息再現裝置、信息記錄方法、信息再現方法、信息記錄程序、信息再現程序、以及信息記錄介質
- 信息記錄設備、信息重放設備、信息記錄方法、信息重放方法、以及信息記錄介質
- 信息存儲介質、信息記錄方法、信息重放方法、信息記錄設備、以及信息重放設備
- 信息存儲介質、信息記錄方法、信息回放方法、信息記錄設備和信息回放設備
- 信息記錄介質、信息記錄方法、信息記錄裝置、信息再現方法和信息再現裝置
- 信息終端,信息終端的信息呈現方法和信息呈現程序
- 信息創建、信息發送方法及信息創建、信息發送裝置





