[發(fā)明專利]一種預(yù)測(cè)員工離職的方法及系統(tǒng)在審
| 申請(qǐng)?zhí)枺?/td> | 201910307472.4 | 申請(qǐng)日: | 2019-04-17 |
| 公開(公告)號(hào): | CN109934420A | 公開(公告)日: | 2019-06-25 |
| 發(fā)明(設(shè)計(jì))人: | 張程;原佳琪;徐璐 | 申請(qǐng)(專利權(quán))人: | 重慶大學(xué) |
| 主分類號(hào): | G06Q10/04 | 分類號(hào): | G06Q10/04;G06Q10/06;G06K9/62 |
| 代理公司: | 重慶雙馬智翔專利代理事務(wù)所(普通合伙) 50241 | 代理人: | 顧曉玲 |
| 地址: | 400030 *** | 國省代碼: | 重慶;50 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 訓(xùn)練集 預(yù)測(cè)模型 隨機(jī)森林 決策樹 驗(yàn)證集 重要度 構(gòu)建 排序 預(yù)測(cè) 時(shí)間成本 數(shù)據(jù)特征 數(shù)據(jù)維度 特征子集 預(yù)測(cè)結(jié)果 重新設(shè)置 測(cè)試集 員工 算法 節(jié)約 | ||
1.一種預(yù)測(cè)員工離職的方法,其特征在于,包括:
步驟S1,獲取已分類員工數(shù)據(jù)并構(gòu)建第一訓(xùn)練集和第一驗(yàn)證集;
步驟S2,基于第一訓(xùn)練集建立第一隨機(jī)森林預(yù)測(cè)模型,利用袋外數(shù)據(jù)獲得第一訓(xùn)練集中每個(gè)特征的重要度,將第一訓(xùn)練集的所有特征按照重要度的高低依次排序,分別從第一訓(xùn)練集和第一驗(yàn)證集所有特征中選取重要度排名前m個(gè)特征作為特征子集,構(gòu)建第二訓(xùn)練集和第二驗(yàn)證集;所述m為正整數(shù);
步驟S3,基于第二訓(xùn)練集建立第二隨機(jī)森林預(yù)測(cè)模型,利用第二驗(yàn)證集計(jì)算第二隨機(jī)森林預(yù)測(cè)模型中每棵決策樹的F-measure值,將決策樹的投票權(quán)值依據(jù)所述決策樹的F-measure值重新設(shè)置,獲得離職預(yù)測(cè)模型;
步驟S4,從待預(yù)測(cè)員工的數(shù)據(jù)中提取出特征子集為重要度排名中前m個(gè)特征的測(cè)試集,將測(cè)試集輸入離職預(yù)測(cè)模型,離職預(yù)測(cè)模型輸出待預(yù)測(cè)員工的離職預(yù)測(cè)結(jié)果。
2.如權(quán)利要求1所述的預(yù)測(cè)員工離職的方法,其特征在于,所述已分類員工數(shù)據(jù)包括已離職、不離職和正在離職的員工的數(shù)據(jù)。
3.如權(quán)利要求1所述的預(yù)測(cè)員工離職的方法,其特征在于,在所述步驟S2中,所述利用袋外數(shù)據(jù)獲得第一訓(xùn)練集中每個(gè)特征的重要度的步驟包括:
步驟S21,對(duì)于第一隨機(jī)森林預(yù)測(cè)模型中的每棵決策樹,使用每棵決策樹相應(yīng)的袋外數(shù)據(jù)計(jì)算OOB錯(cuò)誤,第p棵決策樹在噪聲干擾添加前的OOB錯(cuò)誤值標(biāo)記為errOOB1p;
步驟S22,隨機(jī)向每棵決策樹的袋外數(shù)據(jù)中的特征X中添加噪聲干擾,并計(jì)算OOB錯(cuò)誤,第p棵決策樹在特征X中添加噪聲干擾后的OOB錯(cuò)誤值標(biāo)記為errOOB2pX;
步驟S23,按照步驟S22中的方法完成所有特征的噪聲干擾添加以及添加噪聲干擾后的OOB錯(cuò)誤計(jì)算;
特征X的重要度的計(jì)算公式為:
其中,N為第一隨機(jī)森林預(yù)測(cè)模型中決策樹的數(shù)量,N為大于等于1的整數(shù)。
4.如權(quán)利要求1所述的預(yù)測(cè)員工離職的方法,其特征在于,所述步驟S3包括:
步驟S31,輸入第二驗(yàn)證集,將第二隨機(jī)森林預(yù)測(cè)模型中的每棵決策樹作為獨(dú)立的分類器對(duì)第二驗(yàn)證集中的每個(gè)樣本進(jìn)行分類,得到每個(gè)決策樹的精確率和召回率,計(jì)算決策樹的F-measure值:
其中,F(xiàn)j為第二隨機(jī)森林預(yù)測(cè)模型中第j個(gè)決策樹的F-measure值,1≤j≤K,所述K為第二隨機(jī)森林預(yù)測(cè)模型中決策樹的數(shù)量,K為大于等于1的正整數(shù);redallj為第j個(gè)決策樹的召回率;precisionj為第j個(gè)決策樹的精確率;
步驟S32,在第二隨機(jī)森林預(yù)測(cè)模型的基礎(chǔ)上將決策樹的F-measure值作為所述決策樹的投票權(quán)值獲得離職預(yù)測(cè)模型;
離職預(yù)測(cè)模型中決策樹的投票權(quán)值為:
Wj=Fj;
其中,Wj為離職預(yù)測(cè)模型中第j個(gè)決策樹的投票權(quán)值;
步驟S33,離職預(yù)測(cè)模型的分類結(jié)果為:
其中,x為輸入離職預(yù)測(cè)模型的測(cè)試集,H(x)為輸入測(cè)試集x后離職預(yù)測(cè)模型輸出的結(jié)果,hj(x)表示第j個(gè)決策樹輸入測(cè)試集x的分類結(jié)果,Y表示輸出變量,函數(shù)I()為指標(biāo)函數(shù)。
5.如權(quán)利要求1所述的預(yù)測(cè)員工離職的方法,其特征在于,在所述步驟S2中,選取重要度排名前m個(gè)特征作為特征子集依據(jù)為:所述m個(gè)特征中任一特征的重要度為所有特征重要度的平均值的T倍,所述T大于1,T與預(yù)測(cè)員工離職的方法的執(zhí)行設(shè)備的可利用硬件資源有關(guān),可利用硬件資源越多T越小,可利用硬件資源越少T越大。
6.一種預(yù)測(cè)員工離職的系統(tǒng),其特征在于,包括處理器和員工數(shù)據(jù)單元,所述處理器從員工數(shù)據(jù)單元獲取包含有已分類員工數(shù)據(jù)和待預(yù)測(cè)員工數(shù)據(jù),按照如權(quán)利要求1-5之一所述的預(yù)測(cè)員工離職的方法對(duì)待預(yù)測(cè)員工進(jìn)行離職預(yù)測(cè)。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于重慶大學(xué),未經(jīng)重慶大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910307472.4/1.html,轉(zhuǎn)載請(qǐng)聲明來源鉆瓜專利網(wǎng)。
- 同類專利
- 專利分類
G06Q 專門適用于行政、商業(yè)、金融、管理、監(jiān)督或預(yù)測(cè)目的的數(shù)據(jù)處理系統(tǒng)或方法;其他類目不包含的專門適用于行政、商業(yè)、金融、管理、監(jiān)督或預(yù)測(cè)目的的處理系統(tǒng)或方法
G06Q10-00 行政;管理
G06Q10-02 .預(yù)定,例如用于門票、服務(wù)或事件的
G06Q10-04 .預(yù)測(cè)或優(yōu)化,例如線性規(guī)劃、“旅行商問題”或“下料問題”
G06Q10-06 .資源、工作流、人員或項(xiàng)目管理,例如組織、規(guī)劃、調(diào)度或分配時(shí)間、人員或機(jī)器資源;企業(yè)規(guī)劃;組織模型
G06Q10-08 .物流,例如倉儲(chǔ)、裝貨、配送或運(yùn)輸;存貨或庫存管理,例如訂貨、采購或平衡訂單
G06Q10-10 .辦公自動(dòng)化,例如電子郵件或群件的計(jì)算機(jī)輔助管理
- 一種訓(xùn)練集的拆分方法及裝置
- 一種訓(xùn)練集的訓(xùn)練方法及裝置
- 多重半監(jiān)督圖像的季節(jié)分類方法、系統(tǒng)、電子設(shè)備和介質(zhì)
- 一種基于特征分布的訓(xùn)練集生成、模型訓(xùn)練方法及裝置
- 訓(xùn)練集的獲取方法、裝置及電子設(shè)備
- 選擇模型訓(xùn)練方法、模型選擇方法、裝置及電子設(shè)備
- 一種工業(yè)物聯(lián)網(wǎng)下的模型智能訓(xùn)練方法
- 一種基于集成學(xué)習(xí)的深度學(xué)習(xí)缺陷圖像識(shí)別方法及系統(tǒng)
- 一種基于最優(yōu)訓(xùn)練集的深度學(xué)習(xí)圖像分類方法及系統(tǒng)
- 一種文本立場(chǎng)檢測(cè)方法
- 基于時(shí)間序列預(yù)測(cè)模型適用性量化的預(yù)測(cè)模型選擇方法
- 一種基于方差最小的短期風(fēng)功率預(yù)測(cè)方法
- 模型自匹配融合健康預(yù)測(cè)方法
- 交通時(shí)間預(yù)測(cè)系統(tǒng)、交通時(shí)間預(yù)測(cè)方法以及交通模型建立方法
- 預(yù)測(cè)方法、訓(xùn)練方法、裝置、服務(wù)器及介質(zhì)
- 一種基于供電企業(yè)大數(shù)據(jù)模型庫的用電預(yù)測(cè)方法
- 信息預(yù)測(cè)方法和裝置
- 基于模型復(fù)用的模型預(yù)測(cè)方法、模型預(yù)測(cè)裝置及系統(tǒng)
- 模型融合方法、預(yù)測(cè)方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)
- 考慮預(yù)測(cè)誤差的機(jī)柜設(shè)備發(fā)熱量超短期預(yù)測(cè)方法及系統(tǒng)
- 一種基于條件隨機(jī)森林的笑臉檢測(cè)器及方法
- 隨機(jī)森林模型訓(xùn)練的方法及模型訓(xùn)練控制系統(tǒng)
- 隨機(jī)森林模型訓(xùn)練方法及裝置
- 基于結(jié)構(gòu)化隨機(jī)森林編碼器的眼底視網(wǎng)膜血管分割方法
- 一種基于隨機(jī)森林模型的慢性肝病風(fēng)險(xiǎn)評(píng)估系統(tǒng)
- 基于改進(jìn)隨機(jī)森林方法的風(fēng)光發(fā)電出力的短期預(yù)測(cè)方法
- 交互式隨機(jī)森林子樹篩選方法、裝置、設(shè)備及可讀介質(zhì)
- 交互式隨機(jī)森林集成方法、設(shè)備及可讀存儲(chǔ)介質(zhì)
- 一種基于深度森林的眼底圖像血管分割方法和系統(tǒng)
- 隨機(jī)森林的生成方法、裝置、電子設(shè)備及存儲(chǔ)介質(zhì)





