[發明專利]自動生成機器學習樣本的特征的方法及系統在審
| 申請號: | 201711445538.3 | 申請日: | 2017-12-27 |
| 公開(公告)號: | CN108090516A | 公開(公告)日: | 2018-05-29 |
| 發明(設計)人: | 楊強;戴文淵;陳雨強;孫迪;楊慧斌;劉守湘 | 申請(專利權)人: | 第四范式(北京)技術有限公司 |
| 主分類號: | G06K9/62 | 分類號: | G06K9/62;G06N99/00 |
| 代理公司: | 北京銘碩知識產權代理有限公司 11286 | 代理人: | 徐璐璐;曾世驍 |
| 地址: | 100085 北京市海淀區上*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 機器學習 樣本 特征類型 自動生成 組合特征 字段 離散特征 連續特征 數據記錄 特征組合 系統提供 用戶指定 字段處理 易用性 聲明 門檻 | ||
1.一種自動生成機器學習樣本的特征的方法,包括:
(A)獲取用戶指定的數據表,其中,數據表的一行對應一條數據記錄,數據表的一列對應一個字段;
(B)聲明數據表中的各個非目標值字段所對應的特征類型,其中,特征類型包括離散特征和/或連續特征;
(C)按照聲明的特征類型將各個非目標值字段處理為單位特征;
(D)基于生成的單位特征來進行特征組合,以生成組合特征;以及
(E)基于生成的單位特征和組合特征來得到機器學習樣本的特征。
2.根據權利要求1所述的方法,其中,所述方法通過啟動與自動特征生成步驟相應的算子而自動執行。
3.根據權利要求2所述的方法,其中,所述算子對應于與機器學習流程相應的有向無環圖中的節點。
4.根據權利要求1所述的方法,其中,在步驟(B)中,
自動或根據用戶的指示,將所有非目標值字段聲明為離散特征,或者,將各個非目標值字段聲明為與其字段值數據類型相應的離散特征或連續特征。
5.根據權利要求1所述的方法,其中,步驟(D)包括:
對生成的全部單位特征進行各種組合來獲取候選組合特征,或者,對生成的全部單位特征之中特征重要性較高的單位特征進行各種組合來獲取候選組合特征;
通過衡量與每個候選組合特征相應的機器學習模型的效果來從候選組合特征中篩選出組合特征。
6.根據權利要求1所述的方法,其中,在步驟(E)中,
將生成的全部單位特征和全部組合特征作為機器學習樣本的特征;
或者,將生成的全部單位特征和全部組合特征之中,特征重要性較高的特征作為機器學習樣本的特征;
或者,將生成的全部單位特征之中特征重要性較高的單位特征和生成的全部組合特征,作為機器學習樣本的特征;
或者,將生成的全部組合特征之中特征重要性較高的組合特征和生成的全部單位特征,作為機器學習樣本的特征。
7.根據權利要求4所述的方法,其中,在步驟(C)中,
針對每一個字段值數據類型為連續型且被聲明為離散特征的非目標值字段,執行一種或多種分桶運算以得到相應的一個或多個分桶特征,并將得到的分桶特征整體作為一個單位特征。
8.一種自動生成機器學習樣本的特征的系統,包括:
數據表獲取裝置,用于獲取用戶指定的數據表,其中,數據表的一行對應一條數據記錄,數據表的一列對應一個字段;
聲明裝置,用于聲明數據表中的各個非目標值字段所對應的特征類型,其中,特征類型包括離散特征和/或連續特征;
單位特征生成裝置,用于按照聲明的特征類型將各個非目標值字段處理為單位特征;
組合特征生成裝置,用于基于生成的單位特征來進行特征組合,以生成組合特征;以及
特征獲取裝置,用于基于生成的單位特征和組合特征來得到機器學習樣本的特征。
9.一種用于自動生成機器學習樣本的特征的計算機可讀介質,其中,在所述計算機可讀介質上記錄有用于執行如權利要求1至7任一所述的自動生成機器學習樣本的特征的方法的計算機程序。
10.一種用于自動生成機器學習樣本的特征的計算裝置,包括存儲部件和處理器,其中,存儲部件中存儲有計算機可執行指令集合,當所述計算機可執行指令集合被所述處理器執行時,執行如權利要求1至7任一所述的自動生成機器學習樣本的特征的方法。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于第四范式(北京)技術有限公司,未經第四范式(北京)技術有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201711445538.3/1.html,轉載請聲明來源鉆瓜專利網。





