[發明專利]數據挖掘方法、裝置、計算機設備及計算機可讀存儲介質在審
| 申請號: | 201911004941.1 | 申請日: | 2019-10-22 |
| 公開(公告)號: | CN110765216A | 公開(公告)日: | 2020-02-07 |
| 發明(設計)人: | 蔣詩偉;陳丹;顧玉蓮 | 申請(專利權)人: | 中國銀行股份有限公司 |
| 主分類號: | G06F16/28 | 分類號: | G06F16/28;G06K9/62;G06Q30/02 |
| 代理公司: | 11127 北京三友知識產權代理有限公司 | 代理人: | 周曉飛;許曼 |
| 地址: | 100818 *** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 分組數 統計量 分組 目標變量 分箱 數據挖掘 預設 計算機可讀存儲介質 數據挖掘結果 待處理數據 計算機設備 重新分組 合并 差異度 特征項 分類 | ||
本發明實施例提供了一種數據挖掘方法、裝置、計算機設備及計算機可讀存儲介質,其中,該方法包括:將待處理數據中與目標變量相關的特征項進行分組,分為初始分組數;每次分組后,分別計算將當前分組中任意相鄰兩組合并的情況下,所有分組的皮爾森卡方統計量,在得到的皮爾森卡方統計量中,按照最大的皮爾森卡方統計量對應的合并方式將相鄰兩組合并,合并后的分組情況視為重新分組,直至分組數為預設分組數,完成數據分箱,皮爾森卡方統計量的大小表示當前分組情況下目標變量的第一分類和目標變量的第二分類之間的差異度;基于數據分箱后預設分組數的數據進行數據挖掘。該方案使得數據分箱更合理、更準確,有利于提高數據挖掘結果的精度。
技術領域
本發明涉及數據處理技術領域,特別涉及一種數據挖掘方法、裝置、計算機設備及計算機可讀存儲介質。
背景技術
近年來,隨著大數據技術的發展,數據挖掘技術也日趨成熟,數據挖掘技術一般是指從大量的數據中通過算法搜索出隱藏信息的方法。數據挖掘技術廣泛應用在很多行業,例如:金融業、通信業、交通業、大型零售以及保險業等行業。傳統數據挖掘過程中,對于連續型變量進行特征工程時,需要進行分箱,傳統的分箱方法主要有等頻、等距以及根據一些指標人工分箱等,由于傳統的分箱方法數據分箱模式比較單一,且影響分箱準確度低,使得影響數據挖掘結果的精度。此外,由于數據挖掘過程中涉及到的數據特征項經常很多,在挖掘的過程中往往還會衍生出新的特征項,通過人工分箱很容易出現無從下手、分箱不合理導致信息損失以及模型穩定度下降的問題;同時,人工分箱效率較低,耗費時間。
發明內容
本發明實施例提供了一種數據挖掘方法,以解決現有技術中由于分箱準確度低使得數據挖掘精度低的技術問題。該方法包括:
接收待處理數據,將待處理數據中與目標變量相關的特征項進行等頻或等距分組,分為初始分組數;
每次分組后,分別計算將當前分組中任意相鄰兩組合并的情況下,所有分組的皮爾森卡方統計量,在得到的皮爾森卡方統計量中,按照最大的皮爾森卡方統計量對應的合并方式將相鄰兩組合并,合并后的分組情況視為重新分組,直至分組數為預設分組數,完成數據分箱,其中,皮爾森卡方統計量的大小表示當前分組情況下目標變量的第一分類和目標變量的第二分類之間的差異度,所述預設分組數小于所述初始分組數;
基于數據分箱后所述預設分組數的數據進行數據挖掘。
本發明實施例還提供了一種數據挖掘裝置,以解決現有技術中由于分箱準確度低使得數據挖掘精度低的技術問題。該裝置包括:
初始分組模塊,用于接收待處理數據,將待處理數據中與目標變量相關的特征項進行等頻或等距分組,分為初始分組數;
循環分組模塊,用于每次分組后,分別計算將當前分組中任意相鄰兩組合并的情況下,所有分組的皮爾森卡方統計量,在得到的皮爾森卡方統計量中,按照最大的皮爾森卡方統計量對應的合并方式將相鄰兩組合并,合并后的分組情況視為重新分組,直至分組數為預設分組數,其中,皮爾森卡方統計量的大小表示當前分組情況下目標變量的第一分類和目標變量的第二分類之間的差異度,所述預設分組數小于所述初始分組數;
數據處理模塊,用于基于數據分箱后所述預設分組數的數據進行數據挖掘。
本發明實施例還提供了一種計算機設備,包括存儲器、處理器及存儲在存儲器上并可在處理器上運行的計算機程序,所述處理器執行所述計算機程序時實現上述任意的數據挖掘方法,以解決現有技術中由于分箱準確度低使得數據挖掘精度低的技術問題。
本發明實施例還提供了一種計算機可讀存儲介質,所述計算機可讀存儲介質存儲有執行上述任意的數據挖掘方法的計算機程序,以解決現有技術中由于分箱準確度低使得數據挖掘精度低的技術問題。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中國銀行股份有限公司,未經中國銀行股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201911004941.1/2.html,轉載請聲明來源鉆瓜專利網。





