[發明專利]一種基于級聯森林的虛假招聘信息檢測方法有效
| 申請號: | 202111010334.3 | 申請日: | 2021-08-31 |
| 公開(公告)號: | CN113704409B | 公開(公告)日: | 2023-08-04 |
| 發明(設計)人: | 楊新凱;謝寧寧 | 申請(專利權)人: | 上海師范大學 |
| 主分類號: | G06F16/33 | 分類號: | G06F16/33;G06F40/284;G06N3/006 |
| 代理公司: | 上海科盛知識產權代理有限公司 31225 | 代理人: | 彭瑤 |
| 地址: | 200234 *** | 國省代碼: | 上海;31 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 級聯 森林 虛假 招聘 信息 檢測 方法 | ||
本發明涉及一種基于級聯森林的虛假招聘信息檢測方法,包括下列步驟:1)獲取招聘數據,提取文本特征和非文本特征;2)根據文本特征和非文本特征構建多維度特征樣本,將多維度特征樣本劃分為訓練集和測試集;3)基于級聯森林算法,構建虛假招聘信息檢測模型;4)對虛假招聘信息檢測模型進行模型訓練;5)輸入測試集至訓練后的虛假招聘信息檢測模型中,獲取檢測結果。與現有技術相比,本發明具有準確率高、無需大規模訓練數據等優點。
技術領域
本發明涉及互聯網技術領域,尤其是涉及一種基于級聯森林的虛假招聘信息檢測方法。
背景技術
虛假招聘預測,即招聘欺詐檢測,是欺詐檢測的一個分支。目前常用的欺詐檢測研究方法有基于規則的方法和基于學習的方法。
基于規則的方法將不符合明確規則的結果歸類為欺詐。例如:如果發布招聘職位的企業有公司簡介,則認為這個招聘職位是真實職位,否則為虛假職位。這種基于規則的方法簡單且在邏輯上很容易解釋。但它們的缺點在于,如果檢測的規則已知,則很容易被避免,并且研究人員難以制定明確的規則定義虛假職位預測的邏輯。
基于學習的方法克服了上述缺點,能夠通過算法自動學習欺詐行為。機器學習算法應用在虛假招聘預測領域已經取得顯著成果。Vidros.等從文本中提取多種特征訓練機器學習分類器,其中隨機森林的預測效果最好,準確率達89.5%。這篇文章同時公開了愛琴海就業詐騙數據集(Employment?Scam?Aegean?Dataset,EMSCAD)。Mahbub.等為EMSCAD數據集添加了語義特征,使預測準確率、精確率、召回率均有顯著提升。lal.等將決策樹、隨機森林、邏輯回歸作為基分類器,采用投票技術構建集成模型,將預測準確率提升至95.4%。Alghamdi.等使用支持向量機進行特征選擇,以提升隨機森林的預測效果。Mehboob.等使用極端梯度提升(Extreme?Gradient?Boosting,XGBoost)的方法構建虛假招聘預測模型。王辛使用DBSCAN方法(Density-Based?Spatial?Clustering?of?Applications?with?Noise)和LOF方法(Local?Outlier?factor)識別虛假招聘職位,但查準率和查全率較低。上述文獻多基于傳統的機器學習方法識別虛假招聘職位,依賴人工提取特征,存在特征提取不充分,模型性能不佳等問題。近年來,隨著深度神經網絡在計算機視覺和自然語言處理領域展現出杰出的性能,研究人員嘗試將神經網絡算法用于虛假招聘預測領域。Jeongrae.等基于分層聚類的深度神經網絡(hierarchical?clusters-based?deep?neural?networks,HC-DNN)構建虛假招聘檢測模型,實驗結果顯示所提出的模型優于傳統的機器學習模型。深度神經網絡雖然在解決檢測問題時取得了卓越的成果,但其解決問題的過程卻難以解釋,且需要大規模樣本數據進行訓練,訓練周期長、超參數調整復雜。
發明內容
本發明的目的就是為了克服上述現有技術存在的缺陷而提供一種基于級聯森林的虛假招聘信息檢測方法。
本發明的目的可以通過以下技術方案來實現:
一種基于級聯森林的虛假招聘信息檢測方法,該方法包括如下步驟:
S1:獲取招聘數據,提取文本特征和非文本特征。所述招聘數據包括發布招聘職位的企業相關特征,招聘職位的相關特征以及招聘職位的類別標簽。
采用以下目標函數提取文本特征:
LCBoW=∑(w,c)∈Tlog?P(w∣c(w))
式中:w為目標詞,c(w)為目標詞的上下文,T為給定的招聘文本數據,LCBOW為招聘文本分詞后所有詞向量;通過計算招聘文本分詞后所有詞向量LCBOW的平均值,獲取相同維度的招聘職位的文本語義特征FT。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于上海師范大學,未經上海師范大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202111010334.3/2.html,轉載請聲明來源鉆瓜專利網。





