[發明專利]融合多個機器學習算法的高危人員預警方法在審
| 申請號: | 202110862416.4 | 申請日: | 2021-07-29 |
| 公開(公告)號: | CN113469288A | 公開(公告)日: | 2021-10-01 |
| 發明(設計)人: | 承孝敏;陳劍;張宗謙 | 申請(專利權)人: | 長三角信息智能創新研究院 |
| 主分類號: | G06K9/62 | 分類號: | G06K9/62;G06N20/00;G06Q10/04 |
| 代理公司: | 北京潤平知識產權代理有限公司 11283 | 代理人: | 董杰 |
| 地址: | 241000 安*** | 國省代碼: | 安徽;34 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 融合 機器 學習 算法 高危 人員 預警 方法 | ||
本發明公開了一種融合多個機器學習算法的高危人員預警方法,包括:步驟1、數據預處理;步驟2、構建融合多個機器學習算法的模型;步驟3、模型融合;步驟4、模型預測;其中,步驟2中包括構建XGBoost模型、構建CatBoost模型和構建隨機森林算法模型。該方法創新了高危人群預測方式,具有更強的泛化能力,實現了精度和穩健性的統一。
技術領域
本發明涉及一種融合多個機器學習算法的高危人員預警方法。
背景技術
高危人員的預警對公安部門提前管控決策起到重要的作用。傳統的被動式警務已經不能適應當前多發性犯罪模式,需要探索一種新的預警方式。
結合當前大數據技術的廣泛應用,相關學者提出了一些新型預測方式,例如,有的學者采用模糊聚類和空間聚類方法對犯罪熱點進行識別,有的采用空間回歸分析方法對犯罪熱點和社會、經濟、環境之間的關系進行分析,還有的依據隨機森林的方法提出一種預測犯罪的方法。
由此可見,目前針對犯罪風險預警研究主要針對犯罪熱點的空間和時間維度進行研究,對高危人員的研究主要集中在現狀分析階段,其缺乏對風險的識別和判斷,因而尚未形成權威方法和體系。
隨著人工智能發展,使得通過大數據技術分析高危人員的個人信息和社會信息,并從中提取有效特征成為可能。因此,如何利用人工智能結合大數據技術對高危人員進行精準的預警,加強高危人員的控制,是一個迫切和急需解決的技術難題。
發明內容
本發明的目的是提供一種融合多個機器學習算法的高危人員預警方法,該方法創新了高危人群預測方式,具有更強的泛化能力,實現了精度和穩健性的統一。
為了實現上述目的,本發明提供了一種融合多個機器學習算法的高危人員預警方法,包括:
步驟1、數據預處理;
步驟2、構建融合多個機器學習算法的模型;
步驟3、模型融合;
步驟4、模型預測;
其中,步驟2中包括構建XGBoost模型、構建CatBoost模型和構建隨機森林算法模型。
優選地,在步驟1中,預處理的樣本數據包含數值型和字符型;其中,對數值型數據歸一化之后進行使用,對字符型數據進行離散化處理,并且,使用不同的離散值進行處理。
優選地,步驟1中還包括:結合數據本身的業務含義,對異常數據進行剔除或者當作缺失值處理。
優選地,在步驟2中構建的XGBoost模型將CART回歸樹作為基分類器,學習過程解釋為:其中,k為樹的數目,fk為函數空間F中的1個函數,為預測值,xi為輸入的第i個樣本,F為所有可能的CART集合;
將包含正負樣例的訓練數據集設定相同的初始化權值w=0.5,輸入到XGBoost模型中訓練出第一個弱分類器,并記錄錯誤率;當訓練第二次時,根據第一次訓練所得的弱分類器的效果重新調整每個樣本權重,具體地,提高分錯樣本的權重,降低分對樣本的權重;重復如此,每次迭代訓練時采取弱分類器對樣本進行分類,記錄錯誤率,同時引入目標函數和正則項;在迭代過程中采取梯度下降法優化損失函數,不斷更新弱分類器權重,如此循環,直到弱分類器數量達到給定值;最終,將弱分類器按照不同的權重結合起來,采取的結合策略是將分類錯誤較小的分類器賦予較大權重,分類錯誤較大的分類器賦予較小權重。
優選地,在步驟2中構建的CatBoost模型為基于Gradient Boosting和Categorical Features的機器學習算法,用于處理分類特征問題并有效地減少過度擬合;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于長三角信息智能創新研究院,未經長三角信息智能創新研究院許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110862416.4/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種自動泡茶售賣機
- 下一篇:一種電力系統的運行人員的技能提升平臺





