[發明專利]一種基于交叉的自動特征生成方法有效
| 申請號: | 202011285312.3 | 申請日: | 2020-11-17 |
| 公開(公告)號: | CN112380216B | 公開(公告)日: | 2023-07-28 |
| 發明(設計)人: | 周楚杰;楊帆;黃馨 | 申請(專利權)人: | 北京融七牛信息技術有限公司 |
| 主分類號: | G06F16/22 | 分類號: | G06F16/22;G06F16/2453;G06F16/2455 |
| 代理公司: | 北京山允知識產權代理事務所(特殊普通合伙) 11741 | 代理人: | 胡冰 |
| 地址: | 100043 北京市石景山區*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 交叉 自動 特征 生成 方法 | ||
本發明涉及一種基于交叉的自動特征生成方法,包括:S1,對于待處理的數據表,按照數據表中的數據的類型進行分箱并轉換二值特征;S2,對于生成的所述二值特征進行迭代特征交叉,生成交叉特征,包括:S21,基于所述二值特征,計算多個特征評價指標;S22,根據指定的特征生成數量和迭代輪數,計算每輪需保留的特征數量m、交叉特征數量n和待交叉特征數量k;S23,從生成的二值特征中挑選k個,從上一次迭代生成的交叉特征中挑選n個;S24,將k個二值特征和n個交叉特征兩兩進行交叉運算,生成新的交叉特征;S25,從新生成的交叉特征中挑選m個保留,作為本輪迭代生成的交叉特征。本發明的方法大幅度提高使用人員特征開發效率。
技術領域
本發明涉及機器學習技術領域,更具體地,涉及一種基于交叉的自動特征生成方法。
背景技術
隨著海量數據的出現,人們傾向于使用機器學習技術建立模型解決實際問題。訓練機器學習模型的基本過程主要包括:1)明確建模目標,收集可用數據;2)特征生成,特征選擇;3)建立模型;4)評估模型效果。在上述過程中,特征生成過程非常重要,特征生成的好壞決定了模型的上限。
目前,特征生成方法有如下幾種:
1)人工特征生成
技術人員經過底層數據的清洗、篩選、特征邏輯的設計,開發特征計算代碼等過程,來開發特征。這需要花費技術人員大量的時間。
2)半自動特征生成
現有的機器學習平臺,可基于圖形界面的交互方式來完成特征生成流程。流程主要為:技術人員指定特征生成邏輯,并手動輸入到平臺中,平臺根據用戶指定特征生成邏輯進行計算,生成特征。不需技術人員開發代碼,但需技術人員對業務和數據有深刻的理解,特征效果取決于技術人員的業務經驗,且當面對大量的數據時,仍需要花費大量的時間。
發明內容
針對背景技術中的問題,本發明的目的是:a)針對每個樣本僅有一條記錄的結構化數據表提出一種自動特征構建方法。b)由于每個樣本僅有一條數據記錄,導致每個樣本可使用數據信息較少,因此提出使用交叉算法,提取不同字段之間的組合信息,提升特征效果,挖掘有效信息。
為此本發明提出一種基于交叉的自動特征生成方法,包括:
S1,對于待處理的數據表,按照數據表中的數據的類型進行分箱并轉換二值特征;
S2,對于生成的所述二值特征進行迭代特征交叉,生成交叉特征,其中,在生成交叉特征的迭代過程中,進行特征篩選,包括:
S21,基于步驟S1生成的二值特征,計算多個特征評價指標;
S22,根據指定的特征生成數量和迭代輪數,計算每輪需保留的特征數量m,交叉特征數量n,待交叉特征數量k;
S23,從步驟S1中生成的二值特征中挑選k個,從上一次迭代生成的交叉特征中挑選n個;
S24,將k個二值特征和n個交叉特征兩兩進行交叉運算,支持且和或交叉算子,生成新的交叉特征;
S25,從新生成的交叉特征中挑選m個保留,作為本輪迭代生成的交叉特征。
本發明的方法解決了每個樣本只有一條數據的數據表場景下的特征生成任務,提高了使用人員效率。
本發明的有益效果包括:
1)對于每個樣本只有一條數據的數據表特征生成任務實現全流程自動化,只需根據用戶設定的數據表之間關聯關系,即可開始特征生成任務,用戶無需了解數據情況。
2)支持用戶選擇多張數據表,可生成多張數據表交叉特征,特征維度更豐富,信息提取更全面。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京融七牛信息技術有限公司,未經北京融七牛信息技術有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011285312.3/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種臺燈
- 下一篇:邊緣測距定位和繞開護欄異常段的方法





