[發明專利]一種基于級聯森林的虛假招聘信息檢測方法有效
| 申請號: | 202111010334.3 | 申請日: | 2021-08-31 |
| 公開(公告)號: | CN113704409B | 公開(公告)日: | 2023-08-04 |
| 發明(設計)人: | 楊新凱;謝寧寧 | 申請(專利權)人: | 上海師范大學 |
| 主分類號: | G06F16/33 | 分類號: | G06F16/33;G06F40/284;G06N3/006 |
| 代理公司: | 上海科盛知識產權代理有限公司 31225 | 代理人: | 彭瑤 |
| 地址: | 200234 *** | 國省代碼: | 上海;31 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 級聯 森林 虛假 招聘 信息 檢測 方法 | ||
1.一種基于級聯森林的虛假招聘信息檢測方法,其特征在于,包括下列步驟:
1)獲取招聘數據,提取文本特征和非文本特征;
2)根據文本特征和非文本特征構建多維度特征樣本,將多維度特征樣本劃分為訓練集和測試集;
3)基于級聯森林算法,構建虛假招聘信息檢測模型;
4)對虛假招聘信息檢測模型進行模型訓練;
5)輸入測試集數據至訓練后的虛假招聘信息檢測模型中,獲取預測結果;
步驟1)中,所述招聘數據包括發布招聘職位的企業相關特征,招聘職位的相關特征以及招聘職位的類別標簽;
步驟1)中,采用以下目標函數提取文本特征:
式中:w為目標詞,c(w)為目標詞的上下文,T為給定的招聘文本數據,LCBOW為招聘文本分詞后所有詞向量;通過計算招聘文本分詞后所有詞向量LCBOW的平均值,獲取相同維度的招聘職位的文本語義特征FT;
步驟2)中,對提取的非文本特征進行數據預處理,將取值為類別文本的特征進行獨熱編碼,取值為數值的特征歸一化,獲取非文本特征集FS,將非文本特征集FS與提取的文本特征集FT結合并進行標注,獲取包含多維度特征向量的招聘樣本數據S={F,L},其中多維度特征向量F={FT,FS},L為招聘職位的類別標簽;
步驟3)中,構建虛假招聘信息檢測模型的具體內容為:
31)將訓練集數據輸入級聯森林;
32)自動增加級聯森林層數;
33)判斷級聯森林三層內檢測準確率沒有提升,若是,則進行下一步,否則,再次執行步驟32);
34)停止增加級聯森林,輸出虛假招聘信息檢測模型;
所述級聯森林的每層結構包括完全隨機森林和隨機森林,所述完全隨機森林中的每棵決策樹隨機選擇一個信息增益最大的特征做節點分裂,直至每一個葉節點包含的實例屬于同一個類;所述隨機森林中的每棵決策樹隨機選擇個特征子集,m表示輸入特征的維度,隨后選擇信息增益最大的特征做節點分裂;每個隨機森林的輸出為一個類概率向量;
所述虛假招聘信息檢測模型的具體訓練步驟包括下列步驟:
41)從原始數據集中提取文本特征集FT和非文本特征集FS,構建包含多維度特征向量的招聘樣本數據S;
42)將招聘樣本數據S劃分為訓練集和測試集;
43)初始化每種隨機森林的個數n_estimators和森林中決策樹的個數n_trees;
44)計算特征的信息增益,并將特征排序,訓練n_estimators個隨機森林分類器,做K折交叉驗證,計算準確率;
45)對森林中n_trees個決策樹輸出的類概率求均值,生成類概率向量;
46)將步驟45)生成的類概率向量與輸入的多維度特征向量拼接,輸入下一層進行訓練;
47)重復步驟45)~步驟46),直至檢測的準確率不再上升,停止訓練;
對于招聘樣本數據S中任一特征k,假定其有v個可取的取值{k1,k2,...,kv},第v個分支節點包含了S所有在k上取值為kv的樣本,記為SV,則k的信息增益計算公式如下:
其中,Ent(.)表示信息熵,具體計算公式如下:
其中,L為招聘數據類標簽,pi為第i類招聘樣本所占的比例,利用同樣的方式可計算Ent(SV)的信息增益。
2.根據權利要求1所述的基于級聯森林的虛假招聘信息檢測方法,其特征在于,所述類概率向量為二位類概率向量。
3.根據權利要求2所述的基于級聯森林的虛假招聘信息檢測方法,其特征在于,所述二位類概率向量xi的計算表達式為:
式中,i為招聘職位的類別,xij為類別為i招聘職位在j個決策樹的類概率,n_trees為森林中決策樹的數量。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于上海師范大學,未經上海師范大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202111010334.3/1.html,轉載請聲明來源鉆瓜專利網。





