[發明專利]一種對海量變量進行篩選的方法及設備有效
| 申請號: | 201310023651.8 | 申請日: | 2013-01-22 |
| 公開(公告)號: | CN103942403B | 公開(公告)日: | 2017-07-14 |
| 發明(設計)人: | 葉家杰;盛子夏 | 申請(專利權)人: | 阿里巴巴集團控股有限公司 |
| 主分類號: | G06F19/00 | 分類號: | G06F19/00 |
| 代理公司: | 北京國昊天誠知識產權代理有限公司11315 | 代理人: | 許志勇 |
| 地址: | 英屬開曼群島大開*** | 國省代碼: | 暫無信息 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 海量 變量 進行 篩選 方法 設備 | ||
技術領域
本申請涉及計算機領域,尤其涉及一種對海量變量進行篩選的方法。
背景技術
一般情況下,在數據處理系統的構建時,進行系統的響應類的模式構建都會有變量選擇的環節,而在這環節中,由于變量與變量之間存在一定的相關性,從而會使變量的組合出現嚴重的多重共線性問題。多重共線性一方面會影響模型的可解釋性,導致原來能通過模型揭示的規律變得不再明顯;另一方面也有可能降低模型的預測精確度,從而最終會影響數據處理系統的數據處理操作結果。
針對上述問題,傳統方法是在完成回歸建模的變量選擇后,再借助變量間的相關系數或VIF來判斷哪些變量可能會存在相關性,從而在一組相關的變量中剔除若干個。但這當中有幾個技術難點未能解決:
1、傳統方法對多重共線性的檢測一般是在完成變量選擇之后進行,因為這時變量的數量較少;但同時也由于在變量選擇過程中只考慮變量的顯著性而不考慮共性線,因此有可能會使一些共線性較低同時又顯著的變量組合在選擇過程中被剔除。
2、通常情況下互相相關的很可能不止兩個變量,而是十個甚至幾十個變量同時相互相關,每個變量在不同的方面都各有自身優勢,一不小心,就會把重要的變量剔除,從而對模型造成損失。
3、難以在既保證變量不相關,又保證變量對目標變量的影響最大化。若只依據相關系數來判斷,篩選出來的變量不一定對模型有重要影響,而且在篩選過程中可能會把真正重要的變量剔除。
因此,需要一種方法來快速地進行變量篩選從而實現準確且快速的數據處理。
例如:一個預測目標數據在未來一定時間(如6個月)的預估值的系統,此系統將采集及目標數據相關、環境相關的若干變量信息進行分析,判斷未來的目標數據預估值。其中的若干變量并不一定都對目標數據有影響,或者其中幾個變量對目標數據的影響是相關的(即如果將所述相關變量都計入關鍵變量,會直接導接各變量的權重失真,從而影響最終預測結果及模型的可解釋性),所以要從中間尋找出影響較大的,相關性較小的關鍵變量。當可供分析的變量的數量比較小時(例如幾百個變量),可以采用傳統的變量分析方法選取關鍵變量,分析人員需要耗費幾天至十幾天的分析時間;然而,當遇到變量個數達到“海量”例如20000-50000個的情況,現有的技術將耗費非常長的時間來選擇關鍵變量,而本發明旨在提供一種新的方法及設備,快速準確地在海量變量中找到關鍵變量,依據所述關鍵變量計算未來一定時間內的目標數據預估值。
發明內容
本申請的主要目的在于提供一種對海量變量進行篩選的方法及設備,以解決現有技術存在的上述誤將不應被刪除的變量刪除、分析選擇變量時間長,耗費精力大等問題。利用本申請的技術方案篩選出系統需要的變量,構建準確的系統模式,并將該更優化的系統模式應用于計算機系統中以提升數據處理性能。
根據本申請的一個方面,提供了一種對變量進行篩選的方法,包括:(a)從候選變量池中選擇符合預定顯著性限值的變量以構成第一變量池;(b)針對所述第一變量池中的變量,基于第一預定規則獲得第一變量組合;(c)計算所述第一變量組合中各變量的方差膨脹因子值和標準化參數估計值;(d)確定第一變量組合中的變量是否有任一變量的方差膨脹因子值大于預定的方差膨脹因子值;(e)如果是,取第一變量組合中方差膨脹因子值最高的n個變量,并比較所述n個變量的方差膨脹因子值和標準化參數估計值,基于比較結果更新所述候選變量池,并基于更新后的候選變量池,執行步驟(a)~(d);(f)如果確定第一變量組合中的變量的方差膨脹因子值小于或等于預定的方差膨脹因子值,將所述第一變量組合作為最終變量組合輸出。
根據本申請具體實施方式的方法,步驟(e)中所述“n”可以為大于等于2的整數。
根據本申請具體實施方式的方法,該方法還可以包括步驟(g):獲得候選變量池中各變量對目標變量的F檢驗值;步驟(e)中所述將n個變量的方差膨脹因子值和標準化參數估計值的步驟還可以包括:將所述n個變量中F檢驗值最高的變量置為初始的冠軍變量,將其余n-1個變量置為挑戰變量,將挑戰變量的標準化參數估計和F檢驗值與冠軍變量的標準化參數估計值和F檢驗值進行比較。
根據本申請具體實施方式的方法,將所述挑戰變量的標準化參數估計值和F檢驗值與冠軍變量的標準化參數估計值和F檢驗值進行比較的步驟還可以包括:
(e1)將第i個挑戰變量的標準化參數估計值和F檢驗值與第i個冠軍變量的標準化參數估計值和F檢驗值進行比較;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于阿里巴巴集團控股有限公司,未經阿里巴巴集團控股有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201310023651.8/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種可快速拆卸的高強度刀具
- 下一篇:一種具有保護結構的IBC集裝吊桶
- 同類專利
- 專利分類
G06F 電數字數據處理
G06F19-00 專門適用于特定應用的數字計算或數據處理的設備或方法
G06F19-10 .生物信息學,即計算分子生物學中的遺傳或蛋白質相關的數據處理方法或系統
G06F19-12 ..用于系統生物學的建模或仿真,例如:概率模型或動態模型,遺傳基因管理網絡,蛋白質交互作用網絡或新陳代謝作用網絡
G06F19-14 ..用于發展或進化的,例如:進化的保存區域決定或進化樹結構
G06F19-16 ..用于分子結構的,例如:結構排序,結構或功能關系,蛋白質折疊,結構域拓撲,用結構數據的藥靶,涉及二維或三維結構的
G06F19-18 ..用于功能性基因組學或蛋白質組學的,例如:基因型–表型關聯,不均衡連接,種群遺傳學,結合位置鑒定,變異發生,基因型或染色體組的注釋,蛋白質相互作用或蛋白質核酸的相互作用





