[發明專利]一種基于交叉的自動特征生成方法有效
| 申請號: | 202011285312.3 | 申請日: | 2020-11-17 |
| 公開(公告)號: | CN112380216B | 公開(公告)日: | 2023-07-28 |
| 發明(設計)人: | 周楚杰;楊帆;黃馨 | 申請(專利權)人: | 北京融七牛信息技術有限公司 |
| 主分類號: | G06F16/22 | 分類號: | G06F16/22;G06F16/2453;G06F16/2455 |
| 代理公司: | 北京山允知識產權代理事務所(特殊普通合伙) 11741 | 代理人: | 胡冰 |
| 地址: | 100043 北京市石景山區*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 交叉 自動 特征 生成 方法 | ||
1.一種基于交叉的自動特征生成方法,其特征在于,包括:
S1,對于待處理的數據表,對數據表的每列數據使用至少一種分箱方法,進行分箱計算,分箱完成后,根據分箱效果選擇最優分割點;根據最優分割點分割數據,轉換為二值特征;
S2,對于生成的所述二值特征迭代進行特征交叉,生成交叉特征,其中,在生成交叉特征的迭代過程中,進行特征篩選,包括:
S21,基于步驟S1生成的二值特征,計算多個特征評價指標;
S22,根據指定的特征生成數量和迭代輪數,計算每輪需保留的特征數量m、交叉特征數量n和待交叉特征數量k;
S23,從步驟S1中生成的二值特征中挑選k個,從上一次迭代生成的交叉特征中挑選n個,其中第一次迭代時均從步驟S1中生成的二值特征中挑選,挑選交叉和待交叉特征時,抽取特征效果最好的特征的同時加入隨機抽取特征;
S24,將k個二值特征和n個交叉特征兩兩進行交叉運算,支持且和或交叉算子,生成新的交叉特征;
S25,從新生成的交叉特征中挑選m個保留,作為本輪迭代生成的交叉特征;
S3,判斷停止迭代條件是否滿足:迭代次數達到用戶指定迭代次數,或者新生成的特征無法繼續交叉,如果滿足,則迭代完成所生成的組合特征即為該最終生成的特征,如果不滿足,則返回到步驟S2。
2.根據權利要求1所述的基于交叉的自動特征生成方法,其特征在于,在進行步驟S1之前,還包括:
對分析被選擇的所有數據表,判斷每個字段的數據類型,并給出每個字段的分析報告。
3.根據權利要求1所述的基于交叉的自動特征生成方法,其特征在于,在進行步驟S1之前,還包括:
根據選擇的關聯關系,依次關聯所有數據表。
4.根據權利要求1所述的基于交叉的自動特征生成方法,其特征在于,還包括:對于篩選后的數據,根據數據類型對每列數據挑選異常值處理方法,進行異常值和空值處理,包括:
1)判斷異常記錄:對于數值型字段,使用異常值檢測算法篩選異常值,對于分類型字段,占比小的類別認為是異常值;
2)異常記錄處理:根據預先設置的異常值處理方法替換異常值數據,處理方法包括:刪除和填充。
5.根據權利要求1所述的基于交叉的自動特征生成方法,其特征在于,
在S13中,根據每個字段的數據類型來選擇分箱方法。
6.根據權利要求3所述的基于交叉的自動特征生成方法,其特征在于,
在關聯過程中,根據篩選條件篩選有效記錄,形成一張數據表,供特征生成使用。
7.根據權利要求1所述的基于交叉的自動特征生成方法,其特征在于,通過如下方法計算特征數量m,交叉特征數量n,待交叉特征數量k:
1)根據原始字段數量推斷每輪迭代可生成特征數量;
2)根據指定特征數量和迭代輪數計算每輪預期生成特征數量,每輪分配特征數量遞減;
3)取步驟1)和步驟2)中的較小值為本輪預期生成特征數量m;
4)根據特征數量m和原始字段數量以及上一次迭代生成特征數量,確定交叉特征數量n和待交叉特征數量k,保證n*k大于m且與m數量相近。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京融七牛信息技術有限公司,未經北京融七牛信息技術有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011285312.3/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種臺燈
- 下一篇:邊緣測距定位和繞開護欄異常段的方法





