[發明專利]數據篩選策略生成方法和裝置有效
申請號: | 201510367386.4 | 申請日: | 2015-06-29 |
公開(公告)號: | CN104933165B | 公開(公告)日: | 2018-06-05 |
發明(設計)人: | 劉孟焱 | 申請(專利權)人: | 努比亞技術有限公司 |
主分類號: | G06F17/30 | 分類號: | G06F17/30 |
代理公司: | 深圳市世紀恒程知識產權代理事務所 44287 | 代理人: | 胡海國 |
地址: | 518057 廣東省深圳市南山區高新區北環大道9018*** | 國省代碼: | 廣東;44 |
權利要求書: | 查看更多 | 說明書: | 查看更多 |
摘要: | |||
搜索關鍵詞: | 篩選 數據篩選 策略生成 生成數據 樣本數據 匹配 策略生成裝置 方法和裝置 結果計算 判定數據 終端 | ||
1.一種數據篩選策略生成方法,其特征在于,所述數據篩選策略生成方法包括以下步驟:
獲取各個樣本數據的對應的第一篩選結果,以及各個所述樣本數據對應篩選參數的第二篩選結果;
基于所述第一篩選結果以及所述第二篩選結果計算各個篩選參數的篩選優先級;
基于所述篩選優先級生成數據篩選策略;
所述基于所述第一篩選結果以及所述第二篩選結果計算各個篩選參數的篩選優先級的步驟包括:
基于所述第一篩選結果相同的樣本數據的數量計算標準樣本值;
基于所述第二篩選結果相同的樣本數據的數量計算各個篩選參數對應的信息熵;
基于各個所述篩選參數的信息熵以及所述標準樣本值計算各個所述篩選參數對應的信息增益值;
基于所述信息增益值生成各個所述篩選參數的篩選優先級,其中所述信息增益值越大所述篩選優先級越大。
2.如權利要求1所述的數據篩選策略生成方法,其特征在于,所述基于所述第一篩選結果相同的樣本數據的數量計算標準樣本值的公式如下:
K(P1,P2,……,Pn)=-P1 log2(P1)-P2 log2(P2)-……-Pn log2(Pn);
其中,Pn為各個樣本數據中第一篩選結果相同的樣本數據的個數與所述樣本數據總個數的比值。
3.如權利要求2所述的數據篩選策略生成方法,其特征在于,所述基于所述第一篩選結果相同的樣本數據的數量計算標準樣本值的步驟包括:
依次提取每個篩選參數對應的第二篩選結果;
在每次提取到每個篩選參數對應的第二篩選結果時,獲取第一篩選結果相同的樣本數據的數量作為第一計算值;
獲取第一篩選結果相同的樣本數據中第二篩選結果相同的樣本數據的數量作為第二計算值;
基于所述第一計算值和第二計算值計算提取的所述篩選參數對應的信息熵;
繼續提取下一篩選參數對應的第二篩選結果,直至提取完所有樣本數據的篩選結果。
4.如權利要求3所述的數據篩選策略生成方法,其特征在于,所述基于所述第一計算值和第二計算值計算提取的所述篩選參數對應的信息熵的計算公式如下:
W=H1 K(Q1,Q2,……,Qn)+H2 K(Q1,Q2,……,Qn)+……+HnK(Q1,Q2,……,Qn);
其中,所述Hn為所述第一計算值與樣本數據總數之間的比值,Qn為第二計算值與第一計算值之間的比值。
5.一種數據篩選策略生成裝置,其特征在于,所述數據篩選策略生成裝置包括:
獲取模塊,用于獲取各個樣本數據的對應的第一篩選結果,以及各個所述樣本數據對應篩選參數的第二篩選結果;
計算模塊,用于基于所述第一篩選結果以及所述第二篩選結果計算各個篩選參數的篩選優先級;
生成模塊,用于基于所述篩選優先級生成數據篩選策略;
所述計算模塊包括:
計算子模塊,用于基于所述第一篩選結果相同的樣本數據的數量計算標準樣本值;基于所述第二篩選結果相同的樣本數據的數量計算各個篩選參數對應的信息熵,以及基于各個所述篩選參數的信息熵以及所述標準樣本值計算各個所述篩選參數對應的信息增益值;
生成子模塊,用于基于所述信息增益值生成各個所述篩選參數的篩選優先級,其中所述信息增益值越大所述篩選優先級越大。
6.如權利要求5所述的數據篩選策略生成裝置,其特征在于,所述計算子模塊計算標準樣本值的公式如下:
K(P1,P2,……,Pn)=-P1 log2(P1)-P2 log2(P2)-……-Pn log2(Pn);
其中,Pn為各個樣本數據中第一篩選結果相同的樣本數據的個數與所述樣本數據總個數的比值。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于努比亞技術有限公司,未經努比亞技術有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201510367386.4/1.html,轉載請聲明來源鉆瓜專利網。