[發明專利]融合多個機器學習算法的高危人員預警方法在審
| 申請號: | 202110862416.4 | 申請日: | 2021-07-29 |
| 公開(公告)號: | CN113469288A | 公開(公告)日: | 2021-10-01 |
| 發明(設計)人: | 承孝敏;陳劍;張宗謙 | 申請(專利權)人: | 長三角信息智能創新研究院 |
| 主分類號: | G06K9/62 | 分類號: | G06K9/62;G06N20/00;G06Q10/04 |
| 代理公司: | 北京潤平知識產權代理有限公司 11283 | 代理人: | 董杰 |
| 地址: | 241000 安*** | 國省代碼: | 安徽;34 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 融合 機器 學習 算法 高危 人員 預警 方法 | ||
1.一種融合多個機器學習算法的高危人員預警方法,其特征在于,包括:
步驟1、數據預處理;
步驟2、構建融合多個機器學習算法的模型;
步驟3、模型融合;
步驟4、模型預測;
其中,步驟2中包括構建XGBoost模型、構建CatBoost模型和構建隨機森林算法模型。
2.根據權利要求1所述的融合多個機器學習算法的高危人員預警方法,其特征在于,在步驟1中,預處理的樣本數據包含數值型和字符型;其中,對數值型數據歸一化之后進行使用,對字符型數據進行離散化處理,并且,使用不同的離散值進行處理。
3.根據權利要求2所述的融合多個機器學習算法的高危人員預警方法,其特征在于,步驟1中還包括:結合數據本身的業務含義,對異常數據進行剔除或者當作缺失值處理。
4.根據權利要求1所述的融合多個機器學習算法的高危人員預警方法,其特征在于,在步驟2中構建的XGBoost模型將CART回歸樹作為基分類器,學習過程解釋為:其中,k為樹的數目,fk為函數空間F中的1個函數,為預測值,xi為輸入的第i個樣本,F為所有可能的CART集合;
將包含正負樣例的訓練數據集設定相同的初始化權值w=0.5,輸入到XGBoost模型中訓練出第一個弱分類器,并記錄錯誤率;當訓練第二次時,根據第一次訓練所得的弱分類器的效果重新調整每個樣本權重,具體地,提高分錯樣本的權重,降低分對樣本的權重;重復如此,每次迭代訓練時采取弱分類器對樣本進行分類,記錄錯誤率,同時引入目標函數和正則項;在迭代過程中采取梯度下降法優化損失函數,不斷更新弱分類器權重,如此循環,直到弱分類器數量達到給定值;最終,將弱分類器按照不同的權重結合起來,采取的結合策略是將分類錯誤較小的分類器賦予較大權重,分類錯誤較大的分類器賦予較小權重。
5.根據權利要求1所述的融合多個機器學習算法的高危人員預警方法,其特征在于,在步驟2中構建的CatBoost模型為基于Gradient Boosting和Categorical Features的機器學習算法,用于處理分類特征問題并有效地減少過度擬合;
假設數據集包含n個向量D=(Xk,yk)k=1,2,...,n,其中,Xk=(xk1,...xkm)是一個包含m特征值的向量,yk是標簽的值,將輸入數據值隨機排序,生成多個隨機排序,根據公式計算出的數值代替
使用CatBoost對訓練集數據隨機生成多個不同對序列,設定為s+1個序列,對于每一個序列,又訓練n個不同的模型Mi;首先,為第0個序列的每個樣本的模型初始化,再按照模型的不同,為其余s個序列的模型進行初始化,共計s*n個值;其次,生成一棵樹并更新所述s*n個值,使用0序列為每個葉子節點得到均值用于預測;迭代I次,生成I顆樹,最終得到最佳的樹結構。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于長三角信息智能創新研究院,未經長三角信息智能創新研究院許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110862416.4/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種自動泡茶售賣機
- 下一篇:一種電力系統的運行人員的技能提升平臺





