[發明專利]一種支付數據的預處理方法和裝置在審
| 申請號: | 201910005288.4 | 申請日: | 2019-01-03 |
| 公開(公告)號: | CN109857832A | 公開(公告)日: | 2019-06-07 |
| 發明(設計)人: | 狄瀟然;王志恒;張靜;田林;張亞澤 | 申請(專利權)人: | 中國銀行股份有限公司 |
| 主分類號: | G06F16/30 | 分類號: | G06F16/30;G06F16/33 |
| 代理公司: | 北京中博世達專利商標代理有限公司 11274 | 代理人: | 袁方 |
| 地址: | 100818 *** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 數據子表 預處理 非關系型數據庫 方法和裝置 預處理線程 讀取線 列數據 子表 讀取 數據處理領域 數據預處理 處理數據 工作能力 數據倉庫 數據關聯 識別碼 元信息 并行 存儲 | ||
本發明的實施例公開一種支付數據的預處理方法和裝置,涉及數據處理領域,能夠提高并行工作能力,提高了數據預處理的效率。該方法包括:在數據倉庫中讀取數據表,數據表中存儲有支付數據,其中每條支付數據關聯唯一的識別碼;根據數據表的元信息將數據表拆分為至少兩個數據子表;將至少兩個數據子表存入非關系型數據庫;啟動至少一個讀取線程,在非關系型數據庫中分別讀取數據子表,每個讀取線程對應一個數據子表;啟動至少一個預處理線程,對數據子表中的每列數據進行預處理,其中每個預處理線程對應處理數據子表中的一列數據。
技術領域
本發明的實施例涉及數據處理領域,尤其涉及一種支付數據的預處理方法和裝置。
背景技術
隨著計算機技術的快速發展,互聯網金融快速崛起,各類支付數據正在呈指數級增長,如何利用這些數據快速、準確地挖掘有價值信息變得至關重要。原始數據存在不一致、重復、含噪聲、維度高等問題。故在機器學習模型訓練之前,需要完成原始數據預處理。
傳統數據預處理方法為對表中存儲的數據一列接著一列進行計算,當特征持續增加時,整體計算時間會迅速變長。此外,每次計算一次性加載全量數據,隨著數據量越來越大,每一步計算效率越低,有性能瓶頸。現有技術,往往通過增加機器配置解決性能問題。總之,傳統數據預處理方法并行工作能力差,影響數據預處理的效率。
發明內容
本發明的實施例提供一種貸款客戶信用評分方法和裝置,能夠提高并行工作能力,提高了數據預處理的效率。
第一方面,提供一種支付數據的預處理方法,包括:
在數據倉庫中讀取數據表,其中所述數據表中存儲有支付數據,其中每條所述支付數據關聯唯一的識別碼;
根據所述數據表的元信息將所述數據表拆分為至少兩個數據子表;
將所述至少兩個數據子表存入非關系型數據庫;
啟動至少一個讀取線程,在所述非關系型數據庫中分別讀取所述數據子表,其中每個讀取線程對應一個數據子表;
啟動至少一個預處理線程,對所述數據子表中的每列數據進行預處理,其中每個預處理線程對應處理所述數據子表中的一列數據。
可選的,所述在數據倉庫中讀取數據表之前,包括:在至少一個數據系統中獲取原始支付數據,并存入所述數據倉庫,對所述數據倉庫中存儲的所述原始支付數據按照唯一的識別碼進行關聯,生成所述數據表。
可選的,所述根據所述數據表的元信息將所述數據表拆分為至少兩個數據子表,包括:
獲取所述數據表的數據量以及所述數據倉庫的集群資源,根據所述數據表的數據量以及所述數據倉庫的集群資源確定拆分的數據子表數量;
根據所述數據表的元信息以及所述數據子表數量將所述數據表拆分為至少兩個數據子表。
可選的,所述對所述數據子表中的一列數據進行預處理,包括:
將所述數據子表中的一列數據轉換為分布式彈性數據集RDD;
對所述分布式彈性數據集RDD進行如下一項或多項處理:數據清洗、空缺值填充、數據向量化以及數據特征約減。
可選的,所述對所述數據子表中的一列數據進行預處理后,將每個數據子表對應的所述預處理線程預處理完畢的數據存入所述數據倉庫。
第二方面,提供一種支付數據的預處理裝置,包括:
輸入模塊,用于在數據倉庫中讀取數據表,其中所述數據表中存儲有支付數據,其中每條所述支付數據關聯唯一的識別碼;
數據拆分模塊,用于根據所述輸入模塊讀取的所述數據表的元信息將所述數據表拆分為至少兩個數據子表;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中國銀行股份有限公司,未經中國銀行股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910005288.4/2.html,轉載請聲明來源鉆瓜專利網。





