[發明專利]特征選擇方法、裝置、設備及存儲介質在審
| 申請號: | 202010453796.1 | 申請日: | 2020-05-26 |
| 公開(公告)號: | CN111738297A | 公開(公告)日: | 2020-10-02 |
| 發明(設計)人: | 劉小雙 | 申請(專利權)人: | 平安科技(深圳)有限公司 |
| 主分類號: | G06K9/62 | 分類號: | G06K9/62;G06N20/00 |
| 代理公司: | 北京市京大律師事務所 11321 | 代理人: | 劉挽瀾 |
| 地址: | 518033 廣東省深圳市福田區福*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 特征 選擇 方法 裝置 設備 存儲 介質 | ||
本發明涉及人工智能技術領域,公開了一種特征選擇方法、裝置、設備及存儲介質,通過對原始醫療數據進行提取獲得特征值,將所有特征值作為特征集進行多次拷貝,每次拷貝后打亂,得到隨機順序的特征集,將原有特征集與隨機順序特征集拼接為特征矩陣。將所有樣本切割為n組,每次取n?1組構建樹模型,重復n次,然后計算得到特征重要性集合,根據特征重要性集合計算特征的真實分值,剔除出在所有待選擇特征中特征分值最高的特征,并以剔除后的特征矩陣繼續進行分割重復上述步驟,直到剔除的特征數達到預設數量。本發明還涉及區塊鏈技術,所述原始醫療數據可存儲于區塊鏈節點中。
技術領域
本發明涉及人工智能技術領域,尤其涉及一種特征選擇方法、裝置、設備及存儲介質。
背景技術
近年來,隨著互聯網的普及,許多企業和組織都產生了大量的數據,大數據量和超高維度成為后續分析的主要障礙,因此我們需要從過剩的信息中篩選去除冗余,找到相關信息,特征選擇算法是一種降維技術,能夠找到和問題最相關的特征,去除冗余特征,提高數據存儲和處理效率,使用這些最相關特征進行后期的模型構架,能夠避免維度災難。
而在醫療領域,在處理醫療數據時,通過特征選擇的方法,能夠篩選出在醫療生產中的與結果相關性較高的重要特征,例如通過特征選擇,能夠找到對于睡眠質量相關性較高的特征,生產探測健康數據的某可穿戴設備,重點對通過特征選擇進行篩選后得出的重要特征進行探測。
目前的特征選擇方法是通過過濾的方式來選擇,也就是通過循環,不斷的去除重要性較低的特征,而該過濾往往存在以下操作原則,一是若刪掉某維特征,導致模型性能下降,則認為該特征很重要;二是如果刪掉某維特征,模型性能沒有變化,則認為該特征不重要。然而,在實際訓練中,如果刪掉某維特征后模型性能沒有發生變化,這并不能充分說明該特征不是重要特征,在大多數情況下,如果特征維度非常大,特征A,B,C之間存在關聯,那么模型在隨機情況下,選擇特征A和B作為重要特征放在模型中后,特征C的重要性就會變成0,導致特征C被過濾掉,盡管特征C和結果也具有很強的關聯,也就是說,這種特征選擇方法無法避免的會去掉兩個或三個彼此存在較強關聯的特征中的一個。而當我們進行特征選擇的目的是挖掘出重要的特征而不是得到最好的模型時,由于特征與特征之間的關聯度高,特征與特征之間信息彼此干擾的緣故,導致我們選擇不出重要特征或將某些重要特征過濾。
發明內容
本發明的主要目的在于解決現有技術中,由于刪去多個彼此存在較強關聯的特征中的一個特征,導致選擇不出對于重要的特征或導致將某些重要特征過濾的問題。
本發明第一方面提供了一種特征選擇方法,包括:
獲取原始醫療數據,并對所述原始醫療數據進行特征化處理,得到與所述原始醫療數據對應的待選擇特征組;
將所述待選擇特征組進行多次拷貝,并對每次拷貝后的集合進行隨機打亂,得到多組隨機集合;
將所述待選擇特征組與多組所述隨機集合進行拼接,得到特征矩陣,并將所述特征矩陣進行分割成n組訓練集,n為預設值,且為大于1的正整數;
選取所述n組訓練集中的n-1組訓練集基于模型訓練算法構建樹模型,得到n個樹模型,并計算每個樹模型對應的特征重要性集合;
根據所述特征重要性集合計算多個所述待選擇特征的代表分值;
獲取所述代表分值中最高值所對應的待選擇特征,記錄所述待選擇特征的分值,并將獲取到的待選擇特征及其對應的隨機特征從所述特征矩陣中移除;
判斷選擇出的特征個數是否大于或等于預設的特征個數;若是,結束特征選擇,將特征選擇出來的被選擇特征作為重要醫療特征輸出;
若否,則將特征移除處理后得到的特征矩陣進行分割處理,繼續進行特征選擇。
可選的,在本發明第一方面的第一種實現方式中,在所述將所述待選擇特征組進行多次拷貝之后,還包括:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于平安科技(深圳)有限公司,未經平安科技(深圳)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010453796.1/2.html,轉載請聲明來源鉆瓜專利網。





