[發(fā)明專利]一種數(shù)據(jù)預(yù)處理方法及裝置在審
| 申請?zhí)枺?/td> | 202110032431.6 | 申請日: | 2021-01-11 |
| 公開(公告)號: | CN112835867A | 公開(公告)日: | 2021-05-25 |
| 發(fā)明(設(shè)計)人: | 徐薇;孟欣;程呈;李志強;高雨晗 | 申請(專利權(quán))人: | 中國農(nóng)業(yè)銀行股份有限公司 |
| 主分類號: | G06F16/21 | 分類號: | G06F16/21;G06F16/215 |
| 代理公司: | 北京集佳知識產(chǎn)權(quán)代理有限公司 11227 | 代理人: | 李偉 |
| 地址: | 100005 北*** | 國省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 數(shù)據(jù) 預(yù)處理 方法 裝置 | ||
本申請?zhí)峁┑囊环N數(shù)據(jù)處理方法及裝置,通過配置化的方式,傳入?yún)?shù),根據(jù)數(shù)據(jù)預(yù)處理庫中存儲有數(shù)據(jù)行數(shù)、數(shù)據(jù)列數(shù)與線程數(shù)量的對應(yīng)關(guān)系,確定對應(yīng)的線程數(shù)量,再根據(jù)數(shù)據(jù)元素業(yè)務(wù)含義從預(yù)處理規(guī)則集合中得到對應(yīng)的預(yù)處理規(guī)則,并用此規(guī)則多線程的進行預(yù)處理操作,同時,采用Pandas包里工具將每一列數(shù)據(jù)創(chuàng)建為series對象,本申請中,通過采用配置化的方式進行預(yù)處理可以增加預(yù)處理的靈活性,使得預(yù)處理模塊能夠適應(yīng)多種外系統(tǒng);而采用多線程的方式則能夠在避免一列數(shù)據(jù)長時間的占用資源,在一定程度上緩解了服務(wù)器的壓力;將數(shù)據(jù)創(chuàng)建為series對象進行預(yù)處理操作則能夠加快預(yù)處理速度,提升數(shù)據(jù)預(yù)處理效率。
技術(shù)領(lǐng)域
本申請涉及數(shù)據(jù)處理技術(shù)領(lǐng)域,更具體地,尤其涉及一種數(shù)據(jù)預(yù)處理方法及裝置。
背景技術(shù)
在銀行處理系統(tǒng)中,在獲取外系統(tǒng)提供的源數(shù)據(jù)時,存在一些源數(shù)據(jù)是不符合系統(tǒng)要求的,例如:主鍵數(shù)值缺失、非主鍵數(shù)值缺失、數(shù)據(jù)格式不符合要求、數(shù)據(jù)重復(fù)等多種問題。而后續(xù)用于數(shù)據(jù)加工的車間模型已經(jīng)標準化了,不統(tǒng)一的數(shù)據(jù)格式將對后續(xù)車間模型的加工和處理帶來影響,同時,數(shù)值缺失、臟數(shù)據(jù)等也將影響后續(xù)數(shù)據(jù)的入庫。若直接使用這些源數(shù)據(jù),在后續(xù)數(shù)據(jù)加工及入庫的過程中往往會出現(xiàn)報錯,且即使當時未出現(xiàn)報錯,也可能在未來的使用中存在隱患,因此,為了方便后續(xù)對數(shù)據(jù)進行處理和加工,需要預(yù)先對源數(shù)據(jù)進行預(yù)處理。
然而,外系統(tǒng)的源數(shù)據(jù)以.gz數(shù)據(jù)文件傳來,當前在數(shù)據(jù)預(yù)處理時,需要先將數(shù)據(jù)文件進行解壓,再對數(shù)據(jù)進行清洗加工,在后期外系統(tǒng)傳來的數(shù)據(jù)量較大時,預(yù)處理速度將大大拖慢數(shù)據(jù)整體的處理和加工速度,并且將長時間占用數(shù)據(jù)緩存,不利于數(shù)據(jù)緩存的有效利用,而當多個外系統(tǒng)同時傳來待預(yù)處理的源數(shù)據(jù)時,不僅會對服務(wù)器造成過大壓力,也將大大影響數(shù)據(jù)后續(xù)加工流程,因此,當前的數(shù)據(jù)預(yù)處理方式的處理速度較慢,數(shù)據(jù)需要占用的數(shù)據(jù)緩存較大,從而導(dǎo)致數(shù)據(jù)預(yù)處理效率較低。
此外,對于不同外系統(tǒng)的源數(shù)據(jù)來說,預(yù)處理規(guī)則有所不同,因此,當前的數(shù)據(jù)預(yù)處理方式需要針對不同系統(tǒng)的源數(shù)據(jù)制定一套專用的預(yù)處理規(guī)則,從而導(dǎo)致開發(fā)和運維的工作量也較大,預(yù)處理規(guī)則配置不夠靈活,服務(wù)器的處理壓力較大。
發(fā)明內(nèi)容
本申請?zhí)峁┝艘环N數(shù)據(jù)預(yù)處理方法及裝置,其目的在于:用以提高源數(shù)據(jù)處理速度,減少緩存空間以及提升預(yù)處理效率,提升預(yù)處理規(guī)則配置的靈活性,并在一定程度上緩解服務(wù)器的處理壓力。
為了實現(xiàn)上述目的,本申請?zhí)峁┝艘韵录夹g(shù)方案:
一種數(shù)據(jù)預(yù)處理方法,包括:
對源數(shù)據(jù)文件進行解壓,得到待處理數(shù)據(jù)文件,并統(tǒng)計所述待處理數(shù)據(jù)文件中的數(shù)據(jù)量大小以及數(shù)據(jù)行的行數(shù)和數(shù)據(jù)列的列數(shù);
根據(jù)所述數(shù)據(jù)行的行數(shù)和所述數(shù)據(jù)列的列數(shù)從數(shù)據(jù)預(yù)處理庫中匹配對應(yīng)的線程數(shù)量,所述數(shù)據(jù)預(yù)處理庫中存儲有數(shù)據(jù)行的行數(shù)、數(shù)據(jù)列的列數(shù)與線程數(shù)量的對應(yīng)關(guān)系;
按列將所述待處理數(shù)據(jù)文件劃分為所述線程數(shù)量對應(yīng)的份數(shù),并使用Pandas包里的工具將每列數(shù)據(jù)創(chuàng)建為series對象進行存儲;
根據(jù)所述數(shù)據(jù)行或所述數(shù)據(jù)列的數(shù)據(jù)元素業(yè)務(wù)含義從預(yù)處理規(guī)則集合中確定對應(yīng)的預(yù)處理規(guī)則,所述預(yù)處理規(guī)則集合中存儲有數(shù)據(jù)元素業(yè)務(wù)含義與預(yù)處理規(guī)則的對應(yīng)關(guān)系;
使用對應(yīng)的所述預(yù)處理規(guī)則,按列對所述待處理數(shù)據(jù)文件中的每列數(shù)據(jù)進行預(yù)處理。
可選的,所述對源數(shù)據(jù)文件進行解壓,得到待處理數(shù)據(jù)文件,并統(tǒng)計所述待處理數(shù)據(jù)文件中的數(shù)據(jù)量大小以及數(shù)據(jù)行的行數(shù)和數(shù)據(jù)列的列數(shù),具體為:
對gz壓縮包格式的所述源數(shù)據(jù)文件進行解壓,得到待處理數(shù)據(jù)文件;
使用Pandas將所述待處理數(shù)據(jù)文件讀取到數(shù)據(jù)緩存中;
根據(jù)所述待處理數(shù)據(jù)文件的讀取情況統(tǒng)計所述待處理數(shù)據(jù)文件中的所述數(shù)據(jù)量大小以及所述數(shù)據(jù)行的行數(shù)和所述數(shù)據(jù)列的列數(shù)。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于中國農(nóng)業(yè)銀行股份有限公司,未經(jīng)中國農(nóng)業(yè)銀行股份有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110032431.6/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 數(shù)據(jù)顯示系統(tǒng)、數(shù)據(jù)中繼設(shè)備、數(shù)據(jù)中繼方法、數(shù)據(jù)系統(tǒng)、接收設(shè)備和數(shù)據(jù)讀取方法
- 數(shù)據(jù)記錄方法、數(shù)據(jù)記錄裝置、數(shù)據(jù)記錄媒體、數(shù)據(jù)重播方法和數(shù)據(jù)重播裝置
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)發(fā)送系統(tǒng)、數(shù)據(jù)發(fā)送裝置以及數(shù)據(jù)結(jié)構(gòu)
- 數(shù)據(jù)顯示系統(tǒng)、數(shù)據(jù)中繼設(shè)備、數(shù)據(jù)中繼方法及數(shù)據(jù)系統(tǒng)
- 數(shù)據(jù)嵌入裝置、數(shù)據(jù)嵌入方法、數(shù)據(jù)提取裝置及數(shù)據(jù)提取方法
- 數(shù)據(jù)管理裝置、數(shù)據(jù)編輯裝置、數(shù)據(jù)閱覽裝置、數(shù)據(jù)管理方法、數(shù)據(jù)編輯方法以及數(shù)據(jù)閱覽方法
- 數(shù)據(jù)發(fā)送和數(shù)據(jù)接收設(shè)備、數(shù)據(jù)發(fā)送和數(shù)據(jù)接收方法
- 數(shù)據(jù)發(fā)送裝置、數(shù)據(jù)接收裝置、數(shù)據(jù)收發(fā)系統(tǒng)、數(shù)據(jù)發(fā)送方法、數(shù)據(jù)接收方法和數(shù)據(jù)收發(fā)方法
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)再現(xiàn)方法、數(shù)據(jù)發(fā)送裝置及數(shù)據(jù)再現(xiàn)裝置
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)再現(xiàn)方法、數(shù)據(jù)發(fā)送裝置及數(shù)據(jù)再現(xiàn)裝置





