[發明專利]一種業務參數選取方法及相關設備在審
| 申請號: | 201610120612.3 | 申請日: | 2016-03-03 |
| 公開(公告)號: | CN107153836A | 公開(公告)日: | 2017-09-12 |
| 發明(設計)人: | 曾偉 | 申請(專利權)人: | 騰訊科技(深圳)有限公司 |
| 主分類號: | G06K9/62 | 分類號: | G06K9/62 |
| 代理公司: | 深圳市深佳知識產權代理事務所(普通合伙)44285 | 代理人: | 王仲凱 |
| 地址: | 518000 廣東省深圳*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 業務 參數 選取 方法 相關 設備 | ||
技術領域
本發明涉及數據處理領域,特別涉及一種業務參數選取方法及相關設備。
背景技術
在用互聯網數據建立模型時,我們往往要從海量的數據當中去挑選出對模型有用的業務參數,由于選取變量時候,會有海量的數據產生,直接利用這些數據進行業務開展的時候,會導致運算比較耗時,另外由于對業務參數的選取方式不恰當還會導致具有統計價值的業務參數的損失。
發明內容
有鑒于此,本發明實施例提供了一種業務參數選取方法及相關設備。
第一方面,本發明實施例中提供的業務參數選取方法,所述方法包括:
配置第一候選樣本集合,其中,所述第一候選樣本集合包括多個候選樣本:
獲取所述第一候選樣本集合中每個候選樣本的IV值;
將所述第一候選樣本集合中IV值超過預設閾值的候選樣本確定為第一初選樣本,并將所述第一初選樣本存入第二待選樣本集合;
利用逐步判別分析和/或聚類分析對所述第二待選樣本集合處理以得到具有顯著性標準的目標樣本,所述目標樣本用于確定所述業務參數。
在一個可能的設計中,所述獲取所述第一候選樣本集合中每個候選樣本的IV值具體包括:
將所述候選樣本按照預先配置的二級制文件個數進行拆分;
利用所述二進制文件與所述IV值的對應關系獲得所述候選樣本的IV值。
在一個可能的設計中,所述利用逐步判別分析和/或聚類分析對所述第二待選樣本集合處理以得到具有顯著性標準的目標樣本具體包括:
對所述第二待選樣本集合進行逐步判別分析得到第三待處理樣本集合和/或對所述第二待選樣本集合進行聚類分析得到第四待處理樣本集合;
將所述第三待處理樣本集合和/或第四待處理樣本集合確定為所述目標樣本。
在一個可能的設計中,所述對所述第二待選樣本集合進行逐步判別分析得到第三待處理樣本集合包括:
利用所述逐步判別分析選出所述第二待選樣本集合中多個具有顯著性標準的第一變量及獲取所述多個顯著性標準的第一變量的N個輸入至所述第三待處理樣本集合,所述N為正整數,和/或
將所述第二待選樣本集合中第一待選樣本均分為多個向前選擇子集合并在每個所述向前選擇子集合中選取出M個具有顯著性的變量輸入所述第三待處理樣本集合,所述M為正整數。
在一個可能的設計中,對所述第二待選樣本集合進行聚類分析得到第四待處理樣本集合,具體包括:
利用聚類分析將所述第二待選樣本集合中第一初選樣本進行分類得到多個具有不同類別的聚類分析集合;
分別獲取每個聚類分析集合中的具有顯著性的變量組成所述第四待處理樣本集合。
在一個可能的設計中,當將所述第三待處理樣本集合和第四待處理樣本集合確定為所述目標樣本時,所述方法還包括:
對所述第三待處理樣本集合和所述第四待處理樣本集合進行去重操作。
第二方面,本發明實施例提供了一種業務參數獲取的裝置,該業務參數獲取的裝置具有實現上述第一方面中業務參數獲取設備行為的功能。所述功能可以通過硬件實現,也可以通過硬件執行相應的軟件實現。所述硬件或軟件包括一個或多個與上述功能相對應的模塊。
在一個可能的設計中,業務參數獲取的裝置的結構中包括處理器和存儲器,所述存儲器用于存儲支持業務參數獲取的裝置執行上述方法的程序,所述處理器被配置為用于執行所述存儲器中存儲的程序。所述業務參數獲取的裝置還可以包括通信接口,用于業務參數獲取裝置與其他設備或通信網絡通信。
第三方面,本發明實施例提供了一種計算機存儲介質,用于儲存為上述 業務參數獲取的設備所用的計算機軟件指令,其包含用于執行上述方面為業務參數獲取的設備所設計的程序。
從以上技術方案可以看出,本發明實施例具有以下優點:
本發明實施例中介紹的業務參數獲取方法及相關設備,首先配置第一候選樣本集合,其中,所述第一候選樣本集合包括多個候選樣本,獲取所述第一候選樣本集合中每個候選樣本的IV值,將所述第一候選樣本集合中IV值超過預設閾值的候選樣本確定為第一初選樣本,并將所述第一初選樣本存入第二待選樣本集合,利用逐步判別分析和/或聚類分析對所述第二待選樣本集合處理以得到具有顯著性標準的目標樣本,所述目標樣本用于確定所述業務參數,利用IV值剔除不顯著的變量得到第二待選樣本集合,通過逐步判別分析和聚類分析第二待選樣本集合得到具有顯著性標準的目標樣本,保證了變量的多樣性,優化了現有的選取流程,減少了降維過程當中變量信息的丟失問題。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于騰訊科技(深圳)有限公司,未經騰訊科技(深圳)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201610120612.3/2.html,轉載請聲明來源鉆瓜專利網。





