[發明專利]一種基于交叉聚合的自動特征生成方法有效
| 申請號: | 202011285295.3 | 申請日: | 2020-11-17 |
| 公開(公告)號: | CN112380215B | 公開(公告)日: | 2023-07-28 |
| 發明(設計)人: | 周楚杰;楊帆;黃馨 | 申請(專利權)人: | 北京融七牛信息技術有限公司 |
| 主分類號: | G06F16/22 | 分類號: | G06F16/22;G06F16/2455;G06F16/9537 |
| 代理公司: | 北京山允知識產權代理事務所(特殊普通合伙) 11741 | 代理人: | 胡冰 |
| 地址: | 100043 北京市石景山區*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 交叉 聚合 自動 特征 生成 方法 | ||
本發明涉及一種基于交叉聚合的自動特征生成方法,包括:S1,對于待處理的數據表進行分箱并轉換二值特征;S2,基于所述二值特征,計算多個特征評價指標;根據指定的特征生成每輪需保留的特征數量m、交叉特征數量n和待交叉特征數量k;從生成的二值特征中挑選k個,從上一次迭代生成的交叉特征中挑選n個;將k個二值特征和n個交叉特征進行交叉運算生成新的交叉特征;從新生成的交叉特征中挑選m個作為本輪迭代生成的交叉特征;S3,將步驟S2中生成的二值特征與數據表原始字段合并;S4,對于每個時間窗來篩選數據;S5,合并所有時間窗生成的特征表;S6,合并所有表生成的特征表。本發明的方法大幅度提高使用人員特征開發效率。
技術領域
本發明涉及機器學習技術領域,更具體地,涉及一種基于交叉聚合的自動特征生成方法。
背景技術
隨著海量數據的出現,人們傾向于使用機器學習技術建立模型解決實際問題。訓練機器學習模型的基本過程主要包括:1)明確建模目標,收集可用數據;2)
特征生成,特征選擇;3)建立模型;4)評估模型效果。在上述過程中,特征生成過程非常重要,特征生成的好壞決定了模型的上限。
目前,特征生成方法有如下幾種:
1)人工特征生成
技術人員經過底層數據的清洗、篩選、特征邏輯的設計,開發特征計算代碼等過程,來開發特征。這需要花費技術人員大量的時間。
2)半自動特征生成
現有的機器學習平臺,可基于圖形界面的交互方式來完成特征生成流程。流程主要為:技術人員指定特征生成邏輯,并手動輸入到平臺中,平臺根據用戶指定特征生成邏輯進行計算,生成特征。不需技術人員開發代碼,但需技術人員對業務和數據有深刻的理解,特征效果取決于技術人員的業務經驗,且當面對大量的數據時,仍需要花費大量的時間。
發明內容
針對背景技術中的問題,本發明的明目的是:a)針對同一樣本含有多條記錄的結構化數據表,且數據表關聯深度較淺的應用場景提出一種自動特征構建方法。b)由于數據表關聯深度較淺,數據表間關聯關系可提取信息較少,同一樣本含有多條記錄,可計算聚合類特征反映樣本在一段時間內的表現。因此提出使用交叉聚合算法提取在某限定條件下的聚合特征,挖掘有效信息,提升特征效果。c)
該計算方法與人工設計特征思路相近,具有較強的可解釋性。
為此本發明提出一種基于交叉的自動特征生成方法。
S1,對于待處理的數據表,按照數據表中的數據類型自行分箱并轉換二值特征;
S2,對于生成的所述二值特征進行迭代特征交叉,生成交叉特征,其中,在生成交叉特征的迭代過程中,進行特征篩選,包括:
S21,基于步驟S1生成的二值特征,計算多個特征評價指標;
S22,根據指定的特征生成數量和迭代輪數,計算每輪需保留的特征數量m,交叉特征數量n,待交叉特征數量k;
S23,從步驟S1中生成的二值特征中挑選k個,從上一次迭代生成的交叉特征中挑選n個;
S24,將k個二值特征和n個交叉特征兩兩進行交叉運算,支持且和或交叉算子,生成新的交叉特征;
S25,從新生成的交叉特征中挑選m個保留,作為本輪迭代生成的交叉特征;
S3,將步驟S2中生成的二值特征與數據表原始字段合并,根據設定的時間窗,篩選在對應時間窗內的記錄;
S4,對于每個時間窗來篩選數據;
S5,合并所有時間窗生成的特征表;
S6,合并所有表生成的特征表。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京融七牛信息技術有限公司,未經北京融七牛信息技術有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011285295.3/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種防摔圓珠筆
- 下一篇:一種電動牽引車駐車控制方法及裝置





