[發明專利]數據篩選策略生成方法和裝置有效
申請號: | 201510367386.4 | 申請日: | 2015-06-29 |
公開(公告)號: | CN104933165B | 公開(公告)日: | 2018-06-05 |
發明(設計)人: | 劉孟焱 | 申請(專利權)人: | 努比亞技術有限公司 |
主分類號: | G06F17/30 | 分類號: | G06F17/30 |
代理公司: | 深圳市世紀恒程知識產權代理事務所 44287 | 代理人: | 胡海國 |
地址: | 518057 廣東省深圳市南山區高新區北環大道9018*** | 國省代碼: | 廣東;44 |
權利要求書: | 查看更多 | 說明書: | 查看更多 |
摘要: | |||
搜索關鍵詞: | 篩選 數據篩選 策略生成 生成數據 樣本數據 匹配 策略生成裝置 方法和裝置 結果計算 判定數據 終端 | ||
本發明公開了一種數據篩選策略生成方法,所述數據篩選策略生成方法包括以下步驟:獲取各個樣本數據的對應的第一篩選結果,以及各個所述樣本數據對應篩選參數的第二篩選結果;基于所述第一篩選結果以及所述第二篩選結果計算各個篩選參數的篩選優先級;基于所述篩選優先級生成數據篩選策略。本發明還公開了一種數據篩選策略生成裝置。本發明基于所述篩選優先級生成數據篩選策略,終端在進行數據篩選時,直接基于各個篩選參數的篩選優先級進行篩選,在有篩選參數不匹配時,即判定數據不匹配,篩選過程非常簡便。
技術領域
本發明涉及互聯網技術領域,尤其涉及一種數據篩選策略生成方法和裝置。
背景技術
隨著互聯網的飛速發展,用戶往往在互聯網中可以查看到大量的數據,但在進行數據查看時數據往往排列混亂,很難查找到需要的數據。例如,用戶在查找圖片時,數據庫中的圖片參差不齊,系統在顯示用戶感興趣的專題的時候,會出現很多與專題不符合的圖片或者是質量較差的圖片。為解決上述問題,現有技術中往往通過設置篩選參數對數據進行篩選,但篩選參數為多個時,往往需要同時計算各個篩選參數的匹配度,以確定符合的數據,篩選過程非常復雜。
發明內容
本發明的主要目的在于提出一種數據篩選策略生成方法和裝置,旨在解決移動數據篩選過程復雜的技術問題。
為實現上述目的,本發明提供一種數據篩選策略生成方法,所述數據篩選策略生成方法包括以下步驟:
獲取各個樣本數據的對應的第一篩選結果,以及各個所述樣本數據對應篩選參數的第二篩選結果;
基于所述第一篩選結果以及所述第二篩選結果計算各個篩選參數的篩選優先級;
基于所述篩選優先級生成數據篩選策略。
優選地,所述基于所述第一篩選結果以及所述第二篩選結果計算各個篩選參數的篩選優先級的步驟包括:
基于所述第一篩選結果相同的樣本數據的數量計算標準樣本值;
基于所述第二篩選結果相同的樣本數據的數量計算各個篩選參數對應的信息熵;
基于各個所述篩選參數的信息熵以及所述標準樣本值計算各個所述篩選參數對應的信息增益值;
基于所述信息增益值生成各個所述篩選參數的篩選優先級,其中所述信息增益值越大所述篩選優先級越大。
優選地,所述基于所述第一篩選結果相同的樣本數據的數量計算標準樣本值的公式如下:
K(P1,P2,……,Pn)=-P1 log2(P1)-P2 log2(P2)-……-Pn log2(Pn);
其中,Pn為各個樣本數據中第一篩選結果相同的樣本數據的個數與所述樣本數據總個數的比值。
優選地,所述基于所述第一篩選結果相同的樣本數據的數量計算標準樣本值的步驟包括:
依次提取每個篩選參數對應的第二篩選結果;
在每次提取到每個篩選參數對應的第二篩選結果時,獲取第一篩選結果相同的樣本數據的數量作為第一計算值;
獲取第一篩選結果相同的樣本數據中第二篩選結果相同的樣本數據的數量作為第二計算值;
基于所述第一計算值和第二計算值計算提取的所述篩選參數對應的信息熵;
繼續提取下一篩選參數對應的第二篩選結果,直至提取完所有樣本數據的篩選結果。
優選地,所述基于所述第一計算值和第二計算值計算提取的所述篩選參數對應的信息熵的計算公式如下:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于努比亞技術有限公司,未經努比亞技術有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201510367386.4/2.html,轉載請聲明來源鉆瓜專利網。