[發(fā)明專利]一種數(shù)據(jù)預(yù)處理方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)在審
| 申請(qǐng)?zhí)枺?/td> | 202110850843.0 | 申請(qǐng)日: | 2021-07-27 |
| 公開(kāi)(公告)號(hào): | CN113486596A | 公開(kāi)(公告)日: | 2021-10-08 |
| 發(fā)明(設(shè)計(jì))人: | 鄒甜 | 申請(qǐng)(專利權(quán))人: | 中國(guó)銀行股份有限公司 |
| 主分類號(hào): | G06F30/27 | 分類號(hào): | G06F30/27;G06N20/00 |
| 代理公司: | 北京集佳知識(shí)產(chǎn)權(quán)代理有限公司 11227 | 代理人: | 錢(qián)灣灣 |
| 地址: | 100818 *** | 國(guó)省代碼: | 北京;11 |
| 權(quán)利要求書(shū): | 查看更多 | 說(shuō)明書(shū): | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 數(shù)據(jù) 預(yù)處理 方法 裝置 設(shè)備 存儲(chǔ) 介質(zhì) | ||
本申請(qǐng)公開(kāi)了一種數(shù)據(jù)預(yù)處理方法、裝置、設(shè)備及存儲(chǔ)介質(zhì),具體的,獲取目標(biāo)量以及原始數(shù)據(jù)所屬的多種數(shù)據(jù)類別,并將目標(biāo)量以及多種數(shù)據(jù)類別輸入至預(yù)先完成訓(xùn)練的機(jī)器學(xué)習(xí)模型,得到機(jī)器學(xué)習(xí)模型輸出的每種數(shù)據(jù)類別的重要度量值,該重要度量值用于衡量屬于該數(shù)據(jù)類別的原始數(shù)據(jù)對(duì)于分析目標(biāo)量的重要程度,從而確定重要度量值不低于第一預(yù)設(shè)閾值的目標(biāo)類別,其中,屬于目標(biāo)類別的原始數(shù)據(jù)用于分析目標(biāo)量。如此,可以有效減少參與數(shù)據(jù)分析的重要程度較低(甚至無(wú)關(guān))的數(shù)據(jù)的數(shù)據(jù)量,從而可以減小針對(duì)目標(biāo)量的數(shù)據(jù)分析過(guò)程所需的耗時(shí)、以及消耗的資源,并且,也能夠避免該數(shù)據(jù)影響分析結(jié)果,從而可以提高數(shù)據(jù)分析結(jié)果的精度。
技術(shù)領(lǐng)域
本申請(qǐng)涉及大數(shù)據(jù)技術(shù)領(lǐng)域,特別是涉及一種數(shù)據(jù)預(yù)處理方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)。
背景技術(shù)
在大數(shù)據(jù)時(shí)代,對(duì)海量數(shù)據(jù)進(jìn)行預(yù)處理,愈來(lái)愈成為大數(shù)據(jù)分析不可缺少的重要環(huán)節(jié)。舉例來(lái)說(shuō),在互聯(lián)網(wǎng)金融的推動(dòng)下,銀行傳統(tǒng)業(yè)務(wù)逐漸向金融科技轉(zhuǎn)型,這就使得隨著銀行業(yè)務(wù)信息科技化,客戶在操作銀行應(yīng)用時(shí)產(chǎn)生大量數(shù)據(jù)的涌入,此時(shí),針對(duì)這些數(shù)據(jù)進(jìn)行深層次的加工、處理至關(guān)重要。傳統(tǒng)的數(shù)據(jù)加工階段包括:數(shù)據(jù)加模式聯(lián)機(jī)的數(shù)據(jù)加工階段、日終批量的數(shù)據(jù)加工階段和數(shù)據(jù)深加工階段,而這三個(gè)流水線加工模式都是基于客戶使用銀行系統(tǒng)進(jìn)行業(yè)務(wù)時(shí)所產(chǎn)生的基礎(chǔ)數(shù)據(jù)。實(shí)際應(yīng)用場(chǎng)景中,在基于這些基礎(chǔ)數(shù)據(jù)進(jìn)行數(shù)據(jù)分析處理時(shí),通常會(huì)存在數(shù)據(jù)處理效率較慢、所得到的處理結(jié)果精確度不高的問(wèn)題。
因此,如何提供一種數(shù)據(jù)預(yù)處理方案,以提高數(shù)據(jù)處理效率、提高處理結(jié)果的精度成為急需解決的重要問(wèn)題。
發(fā)明內(nèi)容
本申請(qǐng)實(shí)施例提供了一種數(shù)據(jù)預(yù)處理方法、裝置、設(shè)備及存儲(chǔ)介質(zhì),以提高數(shù)據(jù)處理效率、提高處理結(jié)果的精度。
第一方面,本申請(qǐng)實(shí)施例提供了一種數(shù)據(jù)預(yù)處理方法,所述方法包括:
獲取目標(biāo)量以及原始數(shù)據(jù)所屬的多種數(shù)據(jù)類別;
將所述目標(biāo)量以及所述多種數(shù)據(jù)類別,輸入至預(yù)先完成訓(xùn)練的機(jī)器學(xué)習(xí)模型,得到所述機(jī)器學(xué)習(xí)模型輸出的每種數(shù)據(jù)類別的重要度量值,所述重要度量值用于衡量屬于所述數(shù)據(jù)類別的原始數(shù)據(jù)對(duì)于分析所述目標(biāo)量的重要程度;
確定所述多種數(shù)據(jù)類別中的目標(biāo)類別,所述目標(biāo)類別的重要度量值不低于第一預(yù)設(shè)閾值,并且,屬于所述目標(biāo)類別的原始數(shù)據(jù)用于分析所述目標(biāo)量。
在一種可能的實(shí)施方式中,所述方法還包括:
獲取目標(biāo)樣本數(shù)據(jù);
將所述目標(biāo)樣本數(shù)據(jù)包括的樣本數(shù)據(jù)以及所述樣本數(shù)據(jù)所屬的數(shù)據(jù)類別輸入至所述機(jī)器學(xué)習(xí)模型;
根據(jù)所述機(jī)器學(xué)習(xí)模型輸出的所述目標(biāo)樣本數(shù)據(jù)包括的數(shù)據(jù)類別對(duì)應(yīng)的重要度量值,調(diào)整機(jī)器學(xué)習(xí)模型中的內(nèi)部參數(shù)。
在一種可能的實(shí)施方式中,所述獲取樣本數(shù)據(jù),包括:
獲取初始樣本數(shù)據(jù);
刪除所述初始樣本數(shù)據(jù)中的第一樣本數(shù)據(jù),得到所述目標(biāo)樣本數(shù)據(jù),其中,所述第一樣本數(shù)據(jù)所屬的數(shù)據(jù)類別對(duì)應(yīng)的重要度量值低于第二預(yù)設(shè)閾值,所述第二預(yù)設(shè)閾值小于所述第一預(yù)設(shè)閾值。
在一種可能的實(shí)施方式中,所述刪除所述初始樣本數(shù)據(jù)中的第一樣本數(shù)據(jù),得到所述目標(biāo)樣本數(shù)據(jù),包括:
刪除所述初始樣本數(shù)據(jù)中的第一樣本數(shù)據(jù),得到第二樣本數(shù)據(jù);
對(duì)所述第二樣本數(shù)據(jù)進(jìn)行無(wú)放回隨機(jī)采樣,得到所述目標(biāo)樣本數(shù)據(jù)。
在一種可能的實(shí)施方式中,所述機(jī)器學(xué)習(xí)模型通過(guò)XGBoost算法進(jìn)行構(gòu)建。
在一種可能的實(shí)施方式中,所述機(jī)器學(xué)習(xí)模型輸出的數(shù)據(jù)類別的重要度量值通過(guò)以下特征重要性指標(biāo)中的任意一種或者多種進(jìn)行衡量:
權(quán)重、增益以及覆蓋率。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于中國(guó)銀行股份有限公司,未經(jīng)中國(guó)銀行股份有限公司許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買(mǎi)此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110850843.0/2.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專利網(wǎng)。
- 數(shù)據(jù)顯示系統(tǒng)、數(shù)據(jù)中繼設(shè)備、數(shù)據(jù)中繼方法、數(shù)據(jù)系統(tǒng)、接收設(shè)備和數(shù)據(jù)讀取方法
- 數(shù)據(jù)記錄方法、數(shù)據(jù)記錄裝置、數(shù)據(jù)記錄媒體、數(shù)據(jù)重播方法和數(shù)據(jù)重播裝置
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)發(fā)送系統(tǒng)、數(shù)據(jù)發(fā)送裝置以及數(shù)據(jù)結(jié)構(gòu)
- 數(shù)據(jù)顯示系統(tǒng)、數(shù)據(jù)中繼設(shè)備、數(shù)據(jù)中繼方法及數(shù)據(jù)系統(tǒng)
- 數(shù)據(jù)嵌入裝置、數(shù)據(jù)嵌入方法、數(shù)據(jù)提取裝置及數(shù)據(jù)提取方法
- 數(shù)據(jù)管理裝置、數(shù)據(jù)編輯裝置、數(shù)據(jù)閱覽裝置、數(shù)據(jù)管理方法、數(shù)據(jù)編輯方法以及數(shù)據(jù)閱覽方法
- 數(shù)據(jù)發(fā)送和數(shù)據(jù)接收設(shè)備、數(shù)據(jù)發(fā)送和數(shù)據(jù)接收方法
- 數(shù)據(jù)發(fā)送裝置、數(shù)據(jù)接收裝置、數(shù)據(jù)收發(fā)系統(tǒng)、數(shù)據(jù)發(fā)送方法、數(shù)據(jù)接收方法和數(shù)據(jù)收發(fā)方法
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)再現(xiàn)方法、數(shù)據(jù)發(fā)送裝置及數(shù)據(jù)再現(xiàn)裝置
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)再現(xiàn)方法、數(shù)據(jù)發(fā)送裝置及數(shù)據(jù)再現(xiàn)裝置
- 電鍍預(yù)處理溶液和電鍍預(yù)處理方法
- 鐵水預(yù)處理方法及其預(yù)處理裝置
- 預(yù)處理裝置及其預(yù)處理方法
- 預(yù)處理組件、使用該預(yù)處理組件進(jìn)行試樣的預(yù)處理的預(yù)處理裝置及包括該預(yù)處理裝置的分析系統(tǒng)
- 待測(cè)樣品預(yù)處理裝置、預(yù)處理筒及預(yù)處理方法
- 醋酸纖維卷曲預(yù)處理裝置、預(yù)處理液及預(yù)處理方法
- 預(yù)處理裝置
- 預(yù)處理濾芯
- 甘薯儲(chǔ)藏預(yù)處理設(shè)備及預(yù)處理方法
- 水樣預(yù)處理裝置、水樣預(yù)處理系統(tǒng)及水樣預(yù)處理方法
- 一種數(shù)據(jù)庫(kù)讀寫(xiě)分離的方法和裝置
- 一種手機(jī)動(dòng)漫人物及背景創(chuàng)作方法
- 一種通訊綜合測(cè)試終端的測(cè)試方法
- 一種服裝用人體測(cè)量基準(zhǔn)點(diǎn)的獲取方法
- 系統(tǒng)升級(jí)方法及裝置
- 用于虛擬和接口方法調(diào)用的裝置和方法
- 線程狀態(tài)監(jiān)控方法、裝置、計(jì)算機(jī)設(shè)備和存儲(chǔ)介質(zhì)
- 一種JAVA智能卡及其虛擬機(jī)組件優(yōu)化方法
- 檢測(cè)程序中方法耗時(shí)的方法、裝置及存儲(chǔ)介質(zhì)
- 函數(shù)的執(zhí)行方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)





