[發(fā)明專利]基于多維關(guān)聯(lián)字段的數(shù)據(jù)缺失預(yù)測(cè)與異常修正方法和裝置在審
| 申請(qǐng)?zhí)枺?/td> | 202211429366.1 | 申請(qǐng)日: | 2022-11-15 |
| 公開(公告)號(hào): | CN116431618A | 公開(公告)日: | 2023-07-14 |
| 發(fā)明(設(shè)計(jì))人: | 田繼陽(yáng);王馭;楊林;甘江彬;張邦華;徐兢一 | 申請(qǐng)(專利權(quán))人: | 安徽省征信股份有限公司 |
| 主分類號(hào): | G06F16/215 | 分類號(hào): | G06F16/215;G06F16/22;G06F18/2433;G06F18/214;G06N20/00 |
| 代理公司: | 合肥佰耀騰興知識(shí)產(chǎn)權(quán)代理事務(wù)所(普通合伙) 34276 | 代理人: | 黃李軍 |
| 地址: | 230000 安徽省合肥市包河區(qū)*** | 國(guó)省代碼: | 安徽;34 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 基于 多維 關(guān)聯(lián) 字段 數(shù)據(jù) 缺失 預(yù)測(cè) 異常 修正 方法 裝置 | ||
本發(fā)明提供了基于多維關(guān)聯(lián)字段的數(shù)據(jù)缺失預(yù)測(cè)與異常修正方法和裝置,包括以下步驟:1.數(shù)據(jù)的輸入;2.數(shù)據(jù)完整度判斷;3.數(shù)據(jù)的填充;4.數(shù)據(jù)的輸出;5.完整數(shù)據(jù)的再次輸入;6.異常值的判斷;7.數(shù)據(jù)的修正;8.修正數(shù)據(jù)的輸出。本發(fā)明對(duì)空缺值不進(jìn)行刪除操作,而是通過機(jī)器學(xué)習(xí),采取基于多維關(guān)聯(lián)字段的數(shù)據(jù)缺失預(yù)測(cè),最大可能保留了數(shù)據(jù),避免誤刪數(shù)據(jù);對(duì)于異常值,在處理前,通過機(jī)器學(xué)習(xí),首先基于多維關(guān)聯(lián)字段進(jìn)行異常值分析,來判斷是否確實(shí)是異常值,以免誤處理真實(shí)數(shù)據(jù);實(shí)現(xiàn)數(shù)據(jù)缺失的自動(dòng)填補(bǔ),數(shù)據(jù)異常的科學(xué)判斷,異常數(shù)值的智能修正,提升數(shù)據(jù)質(zhì)量,降低人工成本及其他風(fēng)險(xiǎn)。
技術(shù)領(lǐng)域
本發(fā)明涉及大數(shù)據(jù)技術(shù)領(lǐng)域,尤其涉及基于多維關(guān)聯(lián)字段的數(shù)據(jù)缺失預(yù)測(cè)與異常修正方法和裝置。
背景技術(shù)
隨著科技發(fā)展進(jìn)步,金融科技公司在日常的生產(chǎn)活動(dòng)中,會(huì)產(chǎn)生大量業(yè)務(wù)數(shù)據(jù),由于程序或系統(tǒng)等問題,可能會(huì)導(dǎo)致最終產(chǎn)生的業(yè)務(wù)數(shù)據(jù)出現(xiàn)空值或者異常數(shù)據(jù);另一方面,為了更好地對(duì)外提供服務(wù),企業(yè)可能會(huì)接入外部數(shù)據(jù)。數(shù)據(jù)倉(cāng)庫(kù)通過數(shù)據(jù)采集系統(tǒng)采集相應(yīng)外部數(shù)據(jù)時(shí),往往會(huì)面臨諸多難題:
1.數(shù)據(jù)在收集、統(tǒng)計(jì)和入庫(kù)時(shí),可能由于人工錯(cuò)誤導(dǎo)致誤填入了錯(cuò)誤的數(shù)值導(dǎo)致信息異常;
2.不同數(shù)據(jù)源在數(shù)據(jù)同步時(shí),由于同步方式、手段以及數(shù)據(jù)存儲(chǔ)形式不同,可能導(dǎo)致數(shù)據(jù)質(zhì)量參差不齊,數(shù)據(jù)中的信息出現(xiàn)離群、缺失等問題。
鑒于以上原因,為了更好的使用數(shù)據(jù),需要增加數(shù)據(jù)清洗環(huán)節(jié),對(duì)數(shù)據(jù)中缺失的信息進(jìn)行填充,對(duì)異常的信息進(jìn)行判斷、修正,以提升數(shù)據(jù)質(zhì)量。在經(jīng)過調(diào)研和搜索后發(fā)現(xiàn),當(dāng)前數(shù)據(jù)清洗和修正工作,有的是通過人工挑選,在數(shù)據(jù)量大的時(shí)候,效率和準(zhǔn)確度低;有的是通過離線方式處理,針對(duì)特定數(shù)據(jù)源采用特定的處理方式,不具有普適性。
1.當(dāng)前數(shù)據(jù)修正環(huán)節(jié)大多數(shù)作為整個(gè)數(shù)據(jù)倉(cāng)庫(kù)建設(shè)過程中的一個(gè)基礎(chǔ)組件,所做得事情有限,一般的僅能做到異常數(shù)據(jù)剔除、重復(fù)數(shù)據(jù)篩查、類型匹配篩查等功能,且對(duì)數(shù)據(jù)的處理方式較為粗暴簡(jiǎn)單,容易刪除掉一些重要數(shù)據(jù)記錄,不利于后續(xù)環(huán)節(jié)使用。
2.對(duì)于缺失數(shù)據(jù)的處理,通常一些系統(tǒng)采用均值、眾數(shù)等方式來填充,沒有結(jié)合其他特征變量進(jìn)行相關(guān)性分析,挖掘數(shù)據(jù)之間的更多信息,所填充的數(shù)據(jù)缺乏一定的合理性。
3.對(duì)于數(shù)據(jù)異常的判斷和修正往往需要人工操作,效率較低,且過于依賴人工的業(yè)務(wù)經(jīng)驗(yàn),缺乏數(shù)理統(tǒng)計(jì)的支撐。
發(fā)明內(nèi)容
本發(fā)明旨在提供基于多維關(guān)聯(lián)字段的數(shù)據(jù)缺失預(yù)測(cè)與異常修正方法和裝置克服上述問題或者至少部分地解決上述問題。
為達(dá)到上述目的,本發(fā)明的技術(shù)方案具體是這樣實(shí)現(xiàn)的:
本發(fā)明的提供了基于多維關(guān)聯(lián)字段的數(shù)據(jù)缺失預(yù)測(cè)與異常修正方法,包括以下步驟:
1.數(shù)據(jù)的輸入,從數(shù)據(jù)庫(kù)中讀取業(yè)務(wù)數(shù)據(jù),并將數(shù)據(jù)庫(kù)中的數(shù)據(jù)預(yù)寬表的形式輸入到裝置中;
2.數(shù)據(jù)完整度判斷,對(duì)數(shù)據(jù)寬表中的數(shù)據(jù)安裝列索引{a1,a2,a3,a4,···,ai}遍歷信息{x1,x2,x3,x4,···,xj}中的空缺值,判斷數(shù)據(jù)完整度,將樣本分為:
a.信息缺失維度2的樣本,由于缺失較多、不能有效地填充,將對(duì)其進(jìn)行清除;
b.信息缺失維度≤2的樣本,滿足本模塊的使用條件,可以進(jìn)行數(shù)據(jù)填充;
c.無信息缺失的樣本,不需要進(jìn)行填充;
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于安徽省征信股份有限公司,未經(jīng)安徽省征信股份有限公司許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202211429366.1/2.html,轉(zhuǎn)載請(qǐng)聲明來源鉆瓜專利網(wǎng)。
- 多維、多元生命水及其用途
- 一種多維地址域名解析的方法和裝置以及系統(tǒng)
- 創(chuàng)建多維操作系統(tǒng)的方法和裝置
- 一種對(duì)多維地址數(shù)據(jù)進(jìn)行解析的方法和裝置以及系統(tǒng)
- 一種分組的交付和路由選擇的方法和裝置以及系統(tǒng)
- 多維碼處理方法、發(fā)送端、接收端和系統(tǒng)
- 多維度信息展示方法及裝置
- 一種屏幕可視化方法、裝置、電子設(shè)備及介質(zhì)
- 多維數(shù)據(jù)集的生成方法及裝置、計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)
- 多維時(shí)空譜數(shù)據(jù)融合方法、裝置、電子設(shè)備和存儲(chǔ)介質(zhì)
- 關(guān)聯(lián)裝置
- 數(shù)據(jù)關(guān)聯(lián)裝置和數(shù)據(jù)關(guān)聯(lián)方法
- 安全關(guān)聯(lián)
- 設(shè)備關(guān)聯(lián)
- 終端關(guān)聯(lián)裝置和終端關(guān)聯(lián)方法
- 關(guān)聯(lián)方法和關(guān)聯(lián)設(shè)備
- 關(guān)聯(lián)方法和關(guān)聯(lián)設(shè)備
- 關(guān)聯(lián)方法和關(guān)聯(lián)設(shè)備
- 關(guān)聯(lián)分析方法和關(guān)聯(lián)分析系統(tǒng)
- 報(bào)文關(guān)聯(lián)方法、報(bào)文關(guān)聯(lián)裝置及報(bào)文關(guān)聯(lián)系統(tǒng)
- 無線通信系統(tǒng)中對(duì)初始建立屬性消息進(jìn)行發(fā)送和接收的方法和裝置
- 醫(yī)療字段映射校驗(yàn)方法及裝置
- 字段匹配方法和裝置
- 一種補(bǔ)充數(shù)據(jù)字段的方法及裝置、電子設(shè)備
- 一種字段信息檢驗(yàn)方法及裝置
- 字段類別的識(shí)別方法及裝置
- 測(cè)試方法、裝置、計(jì)算機(jī)設(shè)備和存儲(chǔ)介質(zhì)
- 一種訓(xùn)練字段分類模型的方法、裝置及設(shè)備
- 業(yè)務(wù)數(shù)據(jù)處理方法及裝置
- 字段測(cè)試方法、裝置、電子設(shè)備及存儲(chǔ)介質(zhì)





