[發(fā)明專利]建模數(shù)據(jù)評(píng)價(jià)指標(biāo)的處理方法、裝置、終端設(shè)備及介質(zhì)在審
| 申請(qǐng)?zhí)枺?/td> | 201911057341.1 | 申請(qǐng)日: | 2019-10-31 |
| 公開(公告)號(hào): | CN110796381A | 公開(公告)日: | 2020-02-14 |
| 發(fā)明(設(shè)計(jì))人: | 陳瑞欽;黃啟軍;李詩(shī)琦;唐興興;林冰垠 | 申請(qǐng)(專利權(quán))人: | 深圳前海微眾銀行股份有限公司 |
| 主分類號(hào): | G06Q10/06 | 分類號(hào): | G06Q10/06;G06N20/00 |
| 代理公司: | 44287 深圳市世紀(jì)恒程知識(shí)產(chǎn)權(quán)代理事務(wù)所 | 代理人: | 王韜 |
| 地址: | 518000 廣東省深圳市前海深港合作區(qū)前*** | 國(guó)省代碼: | 廣東;44 |
| 權(quán)利要求書: | 查看更多 | 說(shuō)明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 建模數(shù)據(jù) 負(fù)樣本 正樣本 評(píng)價(jià)指標(biāo) 位點(diǎn)信息 數(shù)據(jù)集中 數(shù)據(jù)集 讀存儲(chǔ)介質(zhì) 并行計(jì)算 計(jì)算處理 預(yù)設(shè)區(qū)間 終端設(shè)備 計(jì)算機(jī) 節(jié)約 | ||
本發(fā)明公開了一種建模數(shù)據(jù)評(píng)價(jià)指標(biāo)的處理方法、裝置、終端設(shè)備及可計(jì)算機(jī)讀存儲(chǔ)介質(zhì),通過(guò)將建模數(shù)據(jù)拆分為正樣本數(shù)據(jù)集和負(fù)樣本數(shù)據(jù)集;基于預(yù)設(shè)區(qū)間劃分,并行計(jì)算所述正樣本數(shù)據(jù)集中各特征的第一分位點(diǎn)信息和所述負(fù)樣本數(shù)據(jù)集中各所述特征的第二分位點(diǎn)信息;根據(jù)所述第一分位點(diǎn)信息和所述第二分位點(diǎn)信息,得到各所述特征的正樣本累積分布數(shù)和負(fù)樣本累積分布數(shù);基于所述正樣本累積分布數(shù)、所述負(fù)樣本累積分布數(shù)和所述建模數(shù)據(jù)的正樣本總數(shù)、負(fù)樣本總數(shù),確定所述建模數(shù)據(jù)的評(píng)價(jià)指標(biāo)。本發(fā)明節(jié)約了對(duì)建模數(shù)據(jù)中多個(gè)特征或者模型的評(píng)價(jià)指標(biāo)?即KS值進(jìn)行計(jì)算的時(shí)間,提高了建模數(shù)據(jù)評(píng)價(jià)指標(biāo)的計(jì)算處理效率。
技術(shù)領(lǐng)域
本發(fā)明涉及Fintech(金融科技)技術(shù)領(lǐng)域,尤其涉及一種建模數(shù)據(jù)評(píng)價(jià)指標(biāo)的處理方法、裝置、終端設(shè)備及計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)。
背景技術(shù)
基于機(jī)器學(xué)習(xí)模型的有效性和魯棒性考慮,愈來(lái)愈多的領(lǐng)域開始使用機(jī)器學(xué)習(xí)技術(shù),尤其是將機(jī)器學(xué)習(xí)技術(shù)應(yīng)用到金融等對(duì)風(fēng)險(xiǎn)敏感領(lǐng)域,而在針對(duì)該領(lǐng)域構(gòu)建風(fēng)險(xiǎn)管控模型的場(chǎng)景中,通常會(huì)對(duì)輸入到該模型中的各特征數(shù)據(jù)或者訓(xùn)練模型進(jìn)行評(píng)估分析,以篩選出符合模型構(gòu)建要求的建模數(shù)據(jù),而在對(duì)建模數(shù)據(jù)進(jìn)行評(píng)估分析的眾多評(píng)估指標(biāo)中,非常重要的一項(xiàng)指標(biāo)就是柯爾莫可洛夫-斯米洛夫檢驗(yàn)(Kolmogorov-Smirnov Statistics,KS)值,一種在建模過(guò)程中用于描述特征或模型區(qū)分正負(fù)樣本分隔程度的評(píng)價(jià)指標(biāo),KS值越大,表示當(dāng)前建模數(shù)據(jù)的區(qū)分能力越強(qiáng),對(duì)預(yù)測(cè)結(jié)果更加有效。
然而,現(xiàn)有對(duì)KS值進(jìn)行計(jì)算的方式,當(dāng)需要對(duì)大量的建模數(shù)據(jù)計(jì)算KS值時(shí),只能依次取出數(shù)據(jù)中每一個(gè)特征數(shù)據(jù)以及對(duì)應(yīng)目標(biāo)值,并按照各特征數(shù)據(jù)值的大小排序進(jìn)行計(jì)算,如此,在特征數(shù)據(jù)量龐大的情況下,對(duì)整體建模數(shù)據(jù)計(jì)算KS值將需要耗費(fèi)非常多的時(shí)間,而同時(shí)啟動(dòng)多個(gè)線程或者進(jìn)程來(lái)計(jì)算KS值又會(huì)消耗大量的存儲(chǔ)和計(jì)算資源,從而,導(dǎo)致對(duì)建模數(shù)據(jù)KS值進(jìn)行計(jì)算的效率低下。
發(fā)明內(nèi)容
本發(fā)明的主要目的在于提供一種建模數(shù)據(jù)評(píng)價(jià)指標(biāo)的處理方法、裝置、終端設(shè)備及計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),旨在解決現(xiàn)有的對(duì)建模數(shù)據(jù)KS值進(jìn)行計(jì)算的方式,計(jì)算效率低下的技術(shù)問(wèn)題。
為實(shí)現(xiàn)上述目的,本發(fā)明提供一種建模數(shù)據(jù)評(píng)價(jià)指標(biāo)的處理方法,所述建模數(shù)據(jù)評(píng)價(jià)指標(biāo)的處理方法包括:
將建模數(shù)據(jù)拆分為正樣本數(shù)據(jù)集和負(fù)樣本數(shù)據(jù)集;
基于預(yù)設(shè)區(qū)間劃分,并行計(jì)算所述正樣本數(shù)據(jù)集中各特征的第一分位點(diǎn)信息和所述負(fù)樣本數(shù)據(jù)集中各所述特征的第二分位點(diǎn)信息;
根據(jù)所述第一分位點(diǎn)信息和所述第二分位點(diǎn)信息,得到各所述特征的正樣本累積分布數(shù)和負(fù)樣本累積分布數(shù);
基于所述正樣本累積分布數(shù)、所述負(fù)樣本累積分布數(shù)和所述建模數(shù)據(jù)的正樣本總數(shù)、負(fù)樣本總數(shù),確定所述建模數(shù)據(jù)的評(píng)價(jià)指標(biāo)。
進(jìn)一步地,所述基于預(yù)設(shè)區(qū)間劃分的步驟,包括:
獲取預(yù)設(shè)分段數(shù)目,并按照所述分段數(shù)目對(duì)所述正樣本數(shù)據(jù)集以及所述負(fù)樣本數(shù)據(jù)集中各所述特征的特征數(shù)據(jù)進(jìn)行拆分;
所述并行計(jì)算所述正樣本數(shù)據(jù)集中各特征的第一分位點(diǎn)信息和所述負(fù)樣本數(shù)據(jù)集中各所述特征的第二分位點(diǎn)信息的步驟,包括:
統(tǒng)計(jì)拆分各所述特征數(shù)據(jù)后,所述正樣本數(shù)據(jù)集中各所述特征的第一分位點(diǎn)作為第一分位點(diǎn)信息;
統(tǒng)計(jì)拆分各所述特征數(shù)據(jù)后,所述負(fù)樣本數(shù)據(jù)集中各所述特征的第二分位點(diǎn)作為第二分位點(diǎn)信息。
進(jìn)一步地,在所述按照所述分段數(shù)目對(duì)所述正樣本數(shù)據(jù)集以及所述負(fù)樣本數(shù)據(jù)集中各所述特征的特征數(shù)據(jù)進(jìn)行拆分的步驟之后,還包括:
將拆分得到的各分段特征數(shù)據(jù)的端點(diǎn)數(shù)值作為所述第一分位點(diǎn)或者第二分位點(diǎn)。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于深圳前海微眾銀行股份有限公司,未經(jīng)深圳前海微眾銀行股份有限公司許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201911057341.1/2.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專利網(wǎng)。
- 上一篇:大尺度下基于柵格數(shù)據(jù)的交通通達(dá)度評(píng)價(jià)方法
- 下一篇:一種應(yīng)用于護(hù)理學(xué)科的測(cè)評(píng)分析方法與系統(tǒng)
- 同類專利
- 專利分類
G06Q 專門適用于行政、商業(yè)、金融、管理、監(jiān)督或預(yù)測(cè)目的的數(shù)據(jù)處理系統(tǒng)或方法;其他類目不包含的專門適用于行政、商業(yè)、金融、管理、監(jiān)督或預(yù)測(cè)目的的處理系統(tǒng)或方法
G06Q10-00 行政;管理
G06Q10-02 .預(yù)定,例如用于門票、服務(wù)或事件的
G06Q10-04 .預(yù)測(cè)或優(yōu)化,例如線性規(guī)劃、“旅行商問(wèn)題”或“下料問(wèn)題”
G06Q10-06 .資源、工作流、人員或項(xiàng)目管理,例如組織、規(guī)劃、調(diào)度或分配時(shí)間、人員或機(jī)器資源;企業(yè)規(guī)劃;組織模型
G06Q10-08 .物流,例如倉(cāng)儲(chǔ)、裝貨、配送或運(yùn)輸;存貨或庫(kù)存管理,例如訂貨、采購(gòu)或平衡訂單
G06Q10-10 .辦公自動(dòng)化,例如電子郵件或群件的計(jì)算機(jī)輔助管理
- 一種FLAC3D復(fù)雜三維地質(zhì)體模型自動(dòng)建立的方法
- 觸覺(jué)對(duì)象的觸覺(jué)信號(hào)的建模方法、顯示設(shè)備及其驅(qū)動(dòng)方法
- 一種數(shù)據(jù)處理的方法及電子設(shè)備
- 建模數(shù)據(jù)下載方法、裝置、電子設(shè)備及計(jì)算機(jī)存儲(chǔ)介質(zhì)
- 一種機(jī)器學(xué)習(xí)建模平臺(tái)
- 一種自動(dòng)建模的方法、裝置、系統(tǒng)、及其電子設(shè)備
- 一種基于CREO軟件的建模數(shù)據(jù)的建模方法、一種計(jì)算機(jī)裝置和一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)
- 一種基于SG-CIM的數(shù)字化模型建立方法
- 一種基于瀏覽器傳輸?shù)慕7椒把b置
- 數(shù)據(jù)建模方法、裝置、存儲(chǔ)介質(zhì)及處理器
- 樣本權(quán)重分配方法、模型訓(xùn)練方法、電子設(shè)備及存儲(chǔ)介質(zhì)
- 生成人臉識(shí)別的負(fù)樣本的方法、裝置及計(jì)算機(jī)設(shè)備
- 一種基于負(fù)樣本數(shù)據(jù)價(jià)值重采樣的車牌檢測(cè)方法
- 基于偽負(fù)樣本的數(shù)據(jù)平衡方法及提高數(shù)據(jù)分類性能的方法
- 一種模型訓(xùn)練方法及裝置
- 負(fù)樣本篩選模型訓(xùn)練方法、數(shù)據(jù)篩選方法和數(shù)據(jù)匹配方法
- 商品推薦方法、裝置、系統(tǒng)、計(jì)算機(jī)設(shè)備及存儲(chǔ)介質(zhì)
- 一種面向推薦系統(tǒng)的負(fù)采樣方法、裝置和電子設(shè)備
- 目標(biāo)檢測(cè)器的優(yōu)化以及目標(biāo)檢測(cè)
- 一種音頻負(fù)樣本的生成方法及裝置
- 一種用于人臉檢測(cè)的訓(xùn)練樣本的生成方法及裝置
- 分類模型訓(xùn)練方法及裝置
- 模型訓(xùn)練、樣本平衡方法及裝置以及個(gè)人信用評(píng)分系統(tǒng)
- 一種獲得鄰域和正域的方法和系統(tǒng)
- 樣本權(quán)重分配方法、模型訓(xùn)練方法、電子設(shè)備及存儲(chǔ)介質(zhì)
- 正樣本獲取方法、行人檢測(cè)模型生成方法和行人檢測(cè)方法
- 不平衡數(shù)據(jù)過(guò)采樣方法、裝置及存儲(chǔ)介質(zhì)
- 一種神經(jīng)網(wǎng)絡(luò)模型訓(xùn)練方法、裝置及計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)
- 測(cè)試評(píng)估方法、裝置、電子設(shè)備及存儲(chǔ)介質(zhì)
- 一種空殼企業(yè)確定方法及裝置、空殼企業(yè)監(jiān)測(cè)方法及裝置
- 行為評(píng)價(jià)系統(tǒng)
- 一種信用評(píng)價(jià)方法
- 多維電網(wǎng)智能化發(fā)展水平評(píng)價(jià)方法
- 一種評(píng)價(jià)準(zhǔn)確的人行道服務(wù)水平評(píng)價(jià)系統(tǒng)
- 一種信用風(fēng)險(xiǎn)評(píng)價(jià)系統(tǒng)以及信用風(fēng)險(xiǎn)評(píng)價(jià)方法
- 一種基于地質(zhì)資源環(huán)境的評(píng)價(jià)指標(biāo)篩選方法
- 一種基于ArcGIS平臺(tái)的川西林盤評(píng)價(jià)模型構(gòu)建方法
- 一種用于對(duì)電網(wǎng)多重故障嚴(yán)重性進(jìn)行綜合評(píng)價(jià)排序的方法及系統(tǒng)
- 智慧城市評(píng)價(jià)方法及裝置
- 一種適用于化學(xué)抑塵劑優(yōu)選的綜合評(píng)價(jià)方法





