[發(fā)明專利]銀行業(yè)務(wù)數(shù)據(jù)的分箱方法及系統(tǒng)有效
| 申請?zhí)枺?/td> | 202011130461.2 | 申請日: | 2020-10-21 |
| 公開(公告)號: | CN112215703B | 公開(公告)日: | 2023-10-27 |
| 發(fā)明(設(shè)計)人: | 王延勝;侯文圣;劉曲 | 申請(專利權(quán))人: | 中國銀行股份有限公司 |
| 主分類號: | G06Q40/02 | 分類號: | G06Q40/02;G06N20/00 |
| 代理公司: | 北京三友知識產(chǎn)權(quán)代理有限公司 11127 | 代理人: | 吳學鋒;呂俊剛 |
| 地址: | 100818 *** | 國省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 銀行業(yè)務(wù) 數(shù)據(jù) 方法 系統(tǒng) | ||
本發(fā)明公開了一種銀行業(yè)務(wù)數(shù)據(jù)的分箱方法及系統(tǒng),其中,該方法包括:獲取銀行業(yè)務(wù)樣本數(shù)據(jù),進行預處理;對當前數(shù)據(jù)特征的數(shù)據(jù)類型進行判斷;若為離散型數(shù)據(jù),判斷數(shù)據(jù)分布點數(shù)是否大于目標分箱個數(shù);其中,若離散型數(shù)據(jù)的數(shù)據(jù)分布點數(shù)小于或等于目標分箱個數(shù),記錄數(shù)據(jù)分布點為目標分箱點;若離散型數(shù)據(jù)的數(shù)據(jù)分布點數(shù)大于目標分箱個數(shù)或數(shù)據(jù)類型為連續(xù)型,對數(shù)據(jù)進行分箱處理;計算相鄰的兩個分箱的卡方值,將具有最小卡方值的兩個分箱進行合并,重新上述合并的步驟,直至當前總分箱個數(shù)等于目標分箱個數(shù),記錄當前特征的分箱位置;依次對每一個數(shù)據(jù)特征進行分箱,記錄所有特征的分箱位置,將分箱位置輸出至數(shù)據(jù)模型,并導出至文件進行保存。
技術(shù)領(lǐng)域
本發(fā)明涉及銀行業(yè)務(wù)數(shù)據(jù)處理技術(shù)領(lǐng)域,尤指一種銀行業(yè)務(wù)數(shù)據(jù)的分箱方法及系統(tǒng)。
背景技術(shù)
隨著計算機技術(shù)的發(fā)展,越來越多的技術(shù)(大數(shù)據(jù)、分布式、區(qū)塊鏈、人工智能等)應(yīng)用在金融領(lǐng)域,傳統(tǒng)金融業(yè)正在逐步向金融科技轉(zhuǎn)變,但由于金融行業(yè)的安全性、實時性要求,也對技術(shù)提出了更高的要求。
機器學習是人工智能的核心研究內(nèi)容之一,其應(yīng)用已經(jīng)滲透到人類社會的各個領(lǐng)域。對于機器學習模型而言,其魯棒性至關(guān)重要,目前針對區(qū)間型特征,通常通過分箱處理的方法來增強機器學習模型的魯棒性。在應(yīng)用機器學習技術(shù)解決銀行業(yè)務(wù)場景相關(guān)問題時,具有銀行業(yè)特有風格特性的數(shù)據(jù)模型處理工作便成為了一個繞不開的課題。
面對復雜的銀行業(yè)務(wù)數(shù)據(jù)模型,現(xiàn)有傳統(tǒng)的逐條分析的特征工程數(shù)據(jù)分箱方法需要花費較多的時間和人力成本,對人員的業(yè)務(wù)背景要求也比較高,對數(shù)據(jù)本身特點了解不足,可能會比較難開展工作。另一方面,由于數(shù)據(jù)本身可能包含有特定業(yè)務(wù)場景的特有性質(zhì),以及不同的人員對數(shù)據(jù)特征理解的出入,采用等頻分箱、等距分箱方法,或者憑借經(jīng)驗進行分箱時,分箱點很難達到一個較佳的效果。
綜上來看,亟需一種可以克服上述問題且能夠改善分箱效果的銀行業(yè)務(wù)數(shù)據(jù)的分箱方案。
發(fā)明內(nèi)容
為解決現(xiàn)有技術(shù)存在的問題,本發(fā)明提出了一種銀行業(yè)務(wù)數(shù)據(jù)的分箱方法及系統(tǒng);該方法及系統(tǒng)可以在數(shù)據(jù)集樣本數(shù)量足夠多的前提下,針對離散型特征和連續(xù)型特征分別做處理:如果離散型特征的數(shù)據(jù)分布點數(shù)目未超過分箱目標數(shù),則不對此特征進行分箱操作,直接輸出結(jié)果,如果分布點數(shù)目超過分箱數(shù)目,則此特征的處理與連續(xù)型特征處理基本一致;對于連續(xù)型特征,先將樣本根據(jù)此特征數(shù)值排序,再將特征的分布空間進行等頻或者等距的切分,切分數(shù)目要大于分箱目標數(shù),具體數(shù)目可以根據(jù)模型情況調(diào)整。然后跟聚每個切分子集的卡方值,將臨近的卡方值最小的區(qū)間進行遞歸合并,直至切分數(shù)目與目標分箱數(shù)一致,輸出此時的切分情況為分箱點結(jié)果。由于引入了數(shù)據(jù)特征的分布特性,得到的分箱結(jié)果也要遠高于等頻或等距分箱的結(jié)果。進而提高在銀行業(yè)務(wù)背景下使用機器學習模型解決具體業(yè)務(wù)問題時進行數(shù)據(jù)處理的效率,并提升訓練出的機器學習模型的泛化能力。
在本發(fā)明實施例的第一方面,提出了一種銀行業(yè)務(wù)數(shù)據(jù)的分箱方法,該方法包括:
獲取銀行業(yè)務(wù)樣本數(shù)據(jù);
對所述銀行業(yè)務(wù)樣本數(shù)據(jù)進行預處理,得到預處理后的數(shù)據(jù);
根據(jù)所述預處理后的數(shù)據(jù),對當前數(shù)據(jù)特征的數(shù)據(jù)類型進行判斷;
若為離散型數(shù)據(jù),判斷數(shù)據(jù)分布點數(shù)是否大于目標分箱個數(shù);其中,若離散型數(shù)據(jù)的數(shù)據(jù)分布點數(shù)小于或等于目標分箱個數(shù),記錄數(shù)據(jù)分布點為目標分箱點;
若離散型數(shù)據(jù)的數(shù)據(jù)分布點數(shù)大于目標分箱個數(shù)或數(shù)據(jù)類型為連續(xù)型,對數(shù)據(jù)進行分箱處理并生成初始分箱點位;
根據(jù)所述初始分箱點位,計算相鄰的兩個分箱的卡方值,將具有最小卡方值的兩個分箱進行合并;
分箱合并后,重新計算相鄰的兩個分箱的卡方值,并將具有最小卡方值的兩個分箱進行合并,直至當前總分箱個數(shù)等于目標分箱個數(shù),記錄當前特征的分箱位置;
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于中國銀行股份有限公司,未經(jīng)中國銀行股份有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011130461.2/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 同類專利
- 專利分類
G06Q 專門適用于行政、商業(yè)、金融、管理、監(jiān)督或預測目的的數(shù)據(jù)處理系統(tǒng)或方法;其他類目不包含的專門適用于行政、商業(yè)、金融、管理、監(jiān)督或預測目的的處理系統(tǒng)或方法
G06Q40-00 金融;保險;稅務(wù)策略;公司或所得稅的處理
G06Q40-02 .銀行業(yè),例如,利息計算、信貸審批、抵押、家庭銀行或網(wǎng)上銀行
G06Q40-04 .交易,例如,股票、商品、金融衍生工具或貨幣兌換
G06Q40-06 .投資,例如,金融工具、資產(chǎn)組合管理或者基金管理
G06Q40-08 .保險,例如,風險分析或養(yǎng)老金
- 一種銀行賬戶多密碼系統(tǒng)及方法
- 一種銀行電子日志與銀行業(yè)務(wù)設(shè)備配對的方法和系統(tǒng)
- 一種穿戴式銀行業(yè)務(wù)電子日志設(shè)備防搶及信息自毀的方法
- 一種簡單型銀行營銷即時指揮方法和系統(tǒng)
- 一種銀行業(yè)務(wù)數(shù)據(jù)內(nèi)存緩存的操作方法及系統(tǒng)
- 數(shù)據(jù)處理方法和終端
- 一種銀行業(yè)務(wù)授權(quán)判定方法及系統(tǒng)
- 一種基于人工智能的銀行業(yè)務(wù)管理系統(tǒng)
- 銀行業(yè)務(wù)項目實施情況的預測方法及裝置
- 基于區(qū)塊鏈及5G消息的銀行業(yè)務(wù)操作撤回方法及裝置
- 數(shù)據(jù)顯示系統(tǒng)、數(shù)據(jù)中繼設(shè)備、數(shù)據(jù)中繼方法、數(shù)據(jù)系統(tǒng)、接收設(shè)備和數(shù)據(jù)讀取方法
- 數(shù)據(jù)記錄方法、數(shù)據(jù)記錄裝置、數(shù)據(jù)記錄媒體、數(shù)據(jù)重播方法和數(shù)據(jù)重播裝置
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)發(fā)送系統(tǒng)、數(shù)據(jù)發(fā)送裝置以及數(shù)據(jù)結(jié)構(gòu)
- 數(shù)據(jù)顯示系統(tǒng)、數(shù)據(jù)中繼設(shè)備、數(shù)據(jù)中繼方法及數(shù)據(jù)系統(tǒng)
- 數(shù)據(jù)嵌入裝置、數(shù)據(jù)嵌入方法、數(shù)據(jù)提取裝置及數(shù)據(jù)提取方法
- 數(shù)據(jù)管理裝置、數(shù)據(jù)編輯裝置、數(shù)據(jù)閱覽裝置、數(shù)據(jù)管理方法、數(shù)據(jù)編輯方法以及數(shù)據(jù)閱覽方法
- 數(shù)據(jù)發(fā)送和數(shù)據(jù)接收設(shè)備、數(shù)據(jù)發(fā)送和數(shù)據(jù)接收方法
- 數(shù)據(jù)發(fā)送裝置、數(shù)據(jù)接收裝置、數(shù)據(jù)收發(fā)系統(tǒng)、數(shù)據(jù)發(fā)送方法、數(shù)據(jù)接收方法和數(shù)據(jù)收發(fā)方法
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)再現(xiàn)方法、數(shù)據(jù)發(fā)送裝置及數(shù)據(jù)再現(xiàn)裝置
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)再現(xiàn)方法、數(shù)據(jù)發(fā)送裝置及數(shù)據(jù)再現(xiàn)裝置





