[發(fā)明專利]一種自動化數據質量評估方法和可讀存儲介質在審
| 申請?zhí)枺?/td> | 202011531178.0 | 申請日: | 2020-12-22 |
| 公開(公告)號: | CN112529677A | 公開(公告)日: | 2021-03-19 |
| 發(fā)明(設計)人: | 徐順 | 申請(專利權)人: | 四川新網銀行股份有限公司 |
| 主分類號: | G06Q40/00 | 分類號: | G06Q40/00;G06Q10/06 |
| 代理公司: | 成都九鼎天元知識產權代理有限公司 51214 | 代理人: | 陳法君 |
| 地址: | 641400 四*** | 國省代碼: | 四川;51 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 自動化 數據 質量 評估 方法 可讀 存儲 介質 | ||
本發(fā)明公開了一種自動化數據質量評估方法,所述數據質量評估方法包括:S1:數據整理步驟,整理金融機構本地抽取的樣本好壞標簽和數據供應商返回的數據;S2:數據質量評估步驟,對計算數據供應商提供的各個指標的進行數據描述性分析、覆蓋率分析、區(qū)分能力分析和相關性分析,并且生成報表和數據質量評估報告,展示各項分析結果。通過本發(fā)明公開的自動化數據質量評估方法,實現了數據質量評估過程完全自動化,并可以自動生成數據質量評估報告,節(jié)約了大量時間和人力成本,至少節(jié)約90%的時間。
技術領域
本發(fā)明屬于金融科技的信用風險領域,尤其涉及一種自動化數據質量評估方法和可讀存儲介質。
背景技術
隨著大數據技術的不斷發(fā)展,越來越多的數據被應用到信用風險領域。金融機構在應用各類數據前,往往需要大量地評估各個數據供應商提供的數據在信用風險方面的效果,從而選擇最佳的三方數據源。
在面對眾多的數據供應商提供的數據時,金融機構相關工作人員需要逐個對數據質量進行手動評估,查看各數據源的覆蓋率、區(qū)分能力等,工作量較大,花費時間較多。
發(fā)明內容
本發(fā)明的目的在于,為克服現有技術缺陷,提供了一種自動化數據質量評估方法和可讀存儲介質,通過本發(fā)明方法實現了數據質量評估過程的完全自動化,并可以自動生成數據質量評估報告,節(jié)約了大量時間和人力成本。
本發(fā)明目的通過下述技術方案來實現:
一種自動化數據質量評估方法,所述數據質量評估方法包括:S1:數據整理步驟,整理金融機構本地抽取的樣本好壞標簽和數據供應商返回的數據;S2:數據質量評估步驟,對計算數據供應商提供的各個指標的進行數據描述性分析、覆蓋率分析、區(qū)分能力分析和相關性分析,并且生成報表和數據質量評估報告,展示各項分析結果。
根據一個優(yōu)選的實施方式,所述數據質量評估步驟中的數據描述性分析包括:對各個指標的取值范圍、平均數、中位數和分布直方圖計算。
根據一個優(yōu)選的實施方式,所述數據描述性分析通過計算獲得參數指標,完成各個指標的分布情況是否異常、是否存在極端值的檢查。
根據一個優(yōu)選的實施方式,所述數據質量評估步驟中的覆蓋率分析包括對各個指標在不同客群、不同時間段上的覆蓋率的分析。
根據一個優(yōu)選的實施方式,所述數據質量評估步驟中的區(qū)分能力分析包括計算各個指標在不同客群、不同時間段上的IV,評估各數據源各個字段對好壞客戶的區(qū)分能力。
根據一個優(yōu)選的實施方式,所述數據質量評估步驟中的相關性分析包括計算數據源各個指標之間的相關性和自有數據的相關性,評估該數據源對本機構已有數據的增益情況。
根據一個優(yōu)選的實施方式,所述數據質量評估步驟還包括自動建立LightGBM模型,并進行變量篩選和模型參數調整,建立最優(yōu)模型,計算模型分在不同客群、不同時間段上的AUC、KS,評估利用該數據源建模的效果。
根據一個優(yōu)選的實施方式,在LightGBM模型中,利用Bayesian Optimization和/或Early
Stopping方法進行變量篩選和模型參數調整。
根據一個優(yōu)選的實施方式,所述步驟S2中,利用Rmarkdown工具,結合R和Python兩種編程語言,編寫自動化數據測試代碼,自動實現數據質量評估步驟。
一種計算機可讀存儲介質,其上存儲有計算機程序,所述計算機程序被處理器執(zhí)行時實現前述的自動化數據質量評估方法。
前述本發(fā)明主方案及其各進一步選擇方案可以自由組合以形成多個方案,均為本發(fā)明可采用并要求保護的方案;且本發(fā)明,(各非沖突選擇)選擇之間以及和其他選擇之間也可以自由組合。本領域技術人員在了解本發(fā)明方案后根據現有技術和公知常識可明了有多種組合,均為本發(fā)明所要保護的技術方案,在此不做窮舉。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于四川新網銀行股份有限公司,未經四川新網銀行股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業(yè)授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011531178.0/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:高效復合厭氧反應器
- 下一篇:數據處理方法及裝置、數據庫架構
- 同類專利
- 專利分類
- 數據顯示系統(tǒng)、數據中繼設備、數據中繼方法、數據系統(tǒng)、接收設備和數據讀取方法
- 數據記錄方法、數據記錄裝置、數據記錄媒體、數據重播方法和數據重播裝置
- 數據發(fā)送方法、數據發(fā)送系統(tǒng)、數據發(fā)送裝置以及數據結構
- 數據顯示系統(tǒng)、數據中繼設備、數據中繼方法及數據系統(tǒng)
- 數據嵌入裝置、數據嵌入方法、數據提取裝置及數據提取方法
- 數據管理裝置、數據編輯裝置、數據閱覽裝置、數據管理方法、數據編輯方法以及數據閱覽方法
- 數據發(fā)送和數據接收設備、數據發(fā)送和數據接收方法
- 數據發(fā)送裝置、數據接收裝置、數據收發(fā)系統(tǒng)、數據發(fā)送方法、數據接收方法和數據收發(fā)方法
- 數據發(fā)送方法、數據再現方法、數據發(fā)送裝置及數據再現裝置
- 數據發(fā)送方法、數據再現方法、數據發(fā)送裝置及數據再現裝置





