[發明專利]特征選擇方法、裝置、設備及存儲介質在審
| 申請號: | 202010453796.1 | 申請日: | 2020-05-26 |
| 公開(公告)號: | CN111738297A | 公開(公告)日: | 2020-10-02 |
| 發明(設計)人: | 劉小雙 | 申請(專利權)人: | 平安科技(深圳)有限公司 |
| 主分類號: | G06K9/62 | 分類號: | G06K9/62;G06N20/00 |
| 代理公司: | 北京市京大律師事務所 11321 | 代理人: | 劉挽瀾 |
| 地址: | 518033 廣東省深圳市福田區福*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 特征 選擇 方法 裝置 設備 存儲 介質 | ||
1.一種特征選擇方法,其特征在于,所述特征選擇方法包括:
獲取原始醫療數據,并對所述原始醫療數據進行特征化處理,得到與所述原始醫療數據對應的待選擇特征組,其中,所述特征化處理為將所述原始醫療數據與待選擇特征之間進行映射處理;
將所述待選擇特征組進行多次拷貝,并對每次拷貝后的集合進行隨機打亂,得到多組隨機集合;
將所述待選擇特征組與多組所述隨機集合進行拼接,得到特征矩陣,并將所述特征矩陣進行分割成n組訓練集,n為預設值,且為大于1的正整數;
選取所述n組訓練集中的n-1組訓練集基于模型訓練算法構建樹模型,得到n個樹模型,并計算每個樹模型對應的特征重要性集合;
根據所述特征重要性集合計算多個所述待選擇特征的代表分值;
獲取所述代表分值中最高值所對應的待選擇特征,記錄所述待選擇特征的分值,并將獲取到的待選擇特征及其對應的隨機特征從所述特征矩陣中移除;
判斷選擇出的特征個數是否大于或等于預設的特征個數;
若是,結束特征選擇,將特征選擇出來的被選擇特征作為重要醫療特征輸出;
若否,則將特征移除處理后得到的特征矩陣進行分割處理,繼續進行特征選擇。
2.根據權利要求1所述的特征選擇方法,其特征在于,在所述將所述待選擇特征組進行多次拷貝之后,還包括:
對拷貝后獲得的拷貝特征打上特征標簽,所述特征標簽用于使待選擇特征和所述隨機特征相對應,其中,所述特征標簽用于對所述特征矩陣進行分割處理。
3.根據權利要求2所述的特征選擇方法,其特征在于,所述將所述特征矩陣進行分割成n組訓練集包括:
根據所述特征標簽,將所述特征矩陣中的每個特征的數據分別劃分為至少一類樣本;
對所述樣本進行分層抽樣,得到n組訓練集,所述訓練集用于通過模型訓練算法構建樹模型。
4.根據權利要求1-3任一項所述的特征選擇方法,其特征在于,所述模型訓練算法包括隨機森林算法、Adboost、GBDT、Xgboost、以及LightGBM中的任意一種。
5.根據權利要求4所述的特征選擇方法,其特征在于,當所述模型訓練算法為隨機森林算法時,所述選取所述n組訓練集中的n-1組訓練集基于模型訓練算法構建樹模型,得到n個樹模型,并計算每個樹模型對應的特征重要性集合包括:
計算隨機森林中的樹模型在袋外數據上的第一分類錯誤數;
在樹模型的袋外數據中對特征的取值進行隨機擾動,計算第二分類錯誤數;
根據所述第一分類錯誤數和第二分類錯誤數計算各特征的特征重要性。
6.根據權利要求1所述的特征選擇方法,其特征在于,所述根據所述特征重要性集合計算多個所述待選擇特征的代表分值包括:
根據所述特征重要性,計算各特征的Z-score值;
根據所述待選擇特征的Z-score值和對應的隨機特征的Z-score值計算待選擇特征的代表分值。
7.根據權利要求6所述的特征選擇方法,其特征在于,在所述結束特征選擇,將特征選擇出來的被選擇特征作為重要醫療特征輸出之后,還包括:
獲取被選擇特征及所述被選擇特征對應的Z-score值;
根據所述被選擇特征對應的Z-score值,計算所有被選擇特征的第一重要性分值;
將所述被選擇特征重新輸入樹模型中,計算所述被選擇特征的特征重要性,將所述特征重要性作為第二重要性分值;
選擇所述第一重要性分值和所述第二重要性分值中的一個作為參考分值,所述參考分值用于進行后續特征分析。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于平安科技(深圳)有限公司,未經平安科技(深圳)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010453796.1/1.html,轉載請聲明來源鉆瓜專利網。





