[發(fā)明專利]一種特征篩選方法及裝置在審
| 申請?zhí)枺?/td> | 201610127861.5 | 申請日: | 2016-03-07 |
| 公開(公告)號: | CN107169571A | 公開(公告)日: | 2017-09-15 |
| 發(fā)明(設計)人: | 席炎;張柯;謝樹坤;黃俊;付子豪;楊強鵬;李文鵬;王曉光;余舟華 | 申請(專利權)人: | 阿里巴巴集團控股有限公司 |
| 主分類號: | G06N99/00 | 分類號: | G06N99/00 |
| 代理公司: | 北京國昊天誠知識產(chǎn)權代理有限公司11315 | 代理人: | 黃熊 |
| 地址: | 英屬開曼群島大開*** | 國省代碼: | 暫無信息 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 特征 篩選 方法 裝置 | ||
1.一種特征篩選方法,其特征在于,包括:
確定特征集合中特征的機器學習算法權值;其中,特征的機器學習算法權值為:以選取作為樣本的特征的值為輸入,以特征歷史上被選取作為確定業(yè)務模型包含的變量的特征的概率值為輸出訓練指定機器學習算法后,得到的機器學習算法的權值;
根據(jù)所述特征的機器學習算法權值,從所述特征集合中篩選用于確定業(yè)務模型包含的變量的特征;所述業(yè)務模型包含的變量用于實現(xiàn)業(yè)務模型的業(yè)務功能。
2.如權利要求1所述的方法,其特征在于,確定特征集合中特征的機器學習算法權值,包括:
選取樣本構成樣本集合;其中所述樣本集合中的各樣本具備所述特征集合中的部分或全部的特征;
通過分別利用所述樣本集合中樣本的特征的值對至少兩個指定機器學習算法分別進行訓練,確定所述特征集合中特征的機器學習算法權值。
3.如權利要求2所述的方法,其特征在于,所述特征集合中的特征,包括:
與待建立的所述業(yè)務模型預期實現(xiàn)的業(yè)務功能具有關聯(lián)關系的特征。
4.如權利要求2所述的方法,其特征在于,通過分別利用樣本集合中樣本的特征的值對至少兩個指定機器學習算法分別進行訓練,確定所述特征的機器學習算法權值,包括:
通過對所述樣本集合中的樣本進行抽樣,得到至少兩個樣本子集;所述樣本子集由抽樣得到的樣本構成;
通過利用所述樣本子集中的各樣本的特征的值對所述至少兩個指定機器學習算法分別進行訓練,確定所述樣本子集中各樣本的特征的機器學習算法權值。
5.如權利要求4所述的方法,其特征在于,通過對所述樣本集合中的樣本進行抽樣,包括:
通過重復執(zhí)行下述操作,以構建出至少兩個樣本子集:
從所述樣本集合中,隨機抽取數(shù)量小于所述樣本集合中所包含樣本的數(shù)量的樣本構建單個樣本子集。
6.如權利要求4或5所述的方法,其特征在于,根據(jù)所述特征的機器學習算法權值,從所述特征集合中篩選用于確定業(yè)務模型包含的變量的特征,包括:
根據(jù)所述特征的機器學習算法權值,分別計算所述特征對應的篩選總分;所述篩選總分表示:所述特征被選取作為確定業(yè)務模型包含的變量的特征的概率;
根據(jù)所述篩選總分,從所述特征集合中篩選用于確定業(yè)務模型包含的變量的特征。
7.如權利要求6所述的方法,其特征在于,根據(jù)所述特征的機器學習算法權值,分別計算所述特征對應的篩選總分,包括:
根據(jù)各樣本子集中各樣本的特征的機器學習算法權值,計算所述各樣本子集中各特征對應的篩選分數(shù);
通過對同一特征在包括該特征的樣本子集中對應的篩選分數(shù)求和,得到所述各特征對應的篩選總分。
8.一種特征篩選裝置,其特征在于,包括:
機器學習算法權值確定單元,用于確定特征集合中特征的機器學習算法權值;其中,特征的機器學習算法權值為:以選取作為樣本的特征的值作為輸入,以特征歷史上被選取作為確定業(yè)務模型包含的變量的特征的概率值為輸出訓練指定機器學習算法后,得到的機器學習算法的權值;
特征篩選單元,用于根據(jù)所述部分或全部特征的機器學習算法權值,從所述特征集合中篩選用于確定業(yè)務模型包含的變量的特征;所述業(yè)務模型包含的 變量用于實現(xiàn)業(yè)務模型的業(yè)務功能。
9.如權利要求8所述的裝置,其特征在于,機器學習算法權值確定單元,用于:
選取樣本構成樣本集合;其中所述樣本集合中的各樣本具備所述特征集合中的部分或全部的特征;
通過分別利用所述樣本集合中樣本的特征的值對至少兩個指定機器學習算法分別進行訓練,確定所述特征集合中特征的機器學習算法權值。
10.如權利要求9所述的裝置,其特征在于,所述特征集合中的各特征,包括:與待建立的所述業(yè)務模型預期實現(xiàn)的業(yè)務功能具有關聯(lián)關系的特征。
11.如權利要求9所述的裝置,其特征在于,機器學習算法權值確定單元,用于:
通過對所述樣本集合中的樣本進行抽樣,得到至少兩個樣本子集;所述樣本子集由抽樣得到的樣本構成;
通過利用所述樣本子集中的各樣本的特征的值對所述至少兩個指定機器學習算法分別進行訓練,確定所述樣本子集中的各樣本的特征的機器學習算法權值。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于阿里巴巴集團控股有限公司,未經(jīng)阿里巴巴集團控股有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業(yè)授權和技術合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201610127861.5/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。





