[發(fā)明專(zhuān)利]一種企業(yè)信用評(píng)分樣本標(biāo)注方法及裝置在審
| 申請(qǐng)?zhí)枺?/td> | 202210069986.2 | 申請(qǐng)日: | 2022-01-21 |
| 公開(kāi)(公告)號(hào): | CN114462516A | 公開(kāi)(公告)日: | 2022-05-10 |
| 發(fā)明(設(shè)計(jì))人: | 郭長(zhǎng)營(yíng);崔樂(lè)樂(lè);李仰允 | 申請(qǐng)(專(zhuān)利權(quán))人: | 天元大數(shù)據(jù)信用管理有限公司 |
| 主分類(lèi)號(hào): | G06K9/62 | 分類(lèi)號(hào): | G06K9/62;G06Q40/02 |
| 代理公司: | 濟(jì)南信達(dá)專(zhuān)利事務(wù)所有限公司 37100 | 代理人: | 姜麗潔 |
| 地址: | 250100 山東省濟(jì)南市高新*** | 國(guó)省代碼: | 山東;37 |
| 權(quán)利要求書(shū): | 查看更多 | 說(shuō)明書(shū): | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 企業(yè)信用 評(píng)分 樣本 標(biāo)注 方法 裝置 | ||
1.一種企業(yè)信用評(píng)分樣本標(biāo)注方法,其特征在于,具有以下步驟:
S1、多源異構(gòu)數(shù)據(jù)分析融合建立標(biāo)準(zhǔn)數(shù)據(jù)庫(kù);
S2、構(gòu)建進(jìn)行信用評(píng)分的指標(biāo)體系;
S3、指標(biāo)數(shù)據(jù)的預(yù)處理;
S4、計(jì)算最優(yōu)聚類(lèi)中心。
2.根據(jù)權(quán)利要求1所述的一種企業(yè)信用評(píng)分樣本標(biāo)注方法,其特征在于,在步驟S1中,基于用戶(hù)匯聚的多源數(shù)據(jù),通過(guò)數(shù)據(jù)之間融合比對(duì),不同原始字段對(duì)齊,對(duì)多源異構(gòu)數(shù)據(jù)分析融合建立形成企業(yè)標(biāo)準(zhǔn)數(shù)據(jù)庫(kù)。
3.根據(jù)權(quán)利要求2所述的一種企業(yè)信用評(píng)分樣本標(biāo)注方法,其特征在于,在步驟S2中,基于建立的企業(yè)標(biāo)準(zhǔn)數(shù)據(jù)庫(kù)建設(shè)用于信用評(píng)分的指標(biāo)體系,構(gòu)建指標(biāo)的數(shù)據(jù)來(lái)源官方數(shù)據(jù)、互聯(lián)網(wǎng)數(shù)據(jù)、第三方數(shù)據(jù)、入庫(kù)存量數(shù)據(jù)、API接口數(shù)據(jù)、結(jié)構(gòu)化的基本信息和半結(jié)構(gòu)化的數(shù)據(jù)。
4.根據(jù)權(quán)利要求3所述的一種企業(yè)信用評(píng)分樣本標(biāo)注方法,其特征在于,在步驟S3中,通過(guò)無(wú)效值處理、同值統(tǒng)計(jì)和缺失值統(tǒng)計(jì)完成指標(biāo)數(shù)據(jù)的預(yù)處理工作;
所述無(wú)效值處理是去除無(wú)關(guān)信息;所述同值統(tǒng)計(jì)處理是對(duì)只含同值的字段、同值率高于80%的字段進(jìn)行去除;缺失值統(tǒng)計(jì)處理對(duì)全部缺失、字段缺失率高于80%的字段進(jìn)行去除。
5.根據(jù)權(quán)利要求4所述的一種企業(yè)信用評(píng)分樣本標(biāo)注方法,其特征在于,在步驟S4中,進(jìn)一步的包括:
S401、對(duì)指標(biāo)進(jìn)行特征工程;
S402、篩選具有明確含義的指標(biāo)并標(biāo)注部分樣本;
S403、kmeans聚類(lèi)需求最優(yōu)聚類(lèi)中心;
S404、標(biāo)注無(wú)標(biāo)簽樣本;
S405、信用評(píng)分模型訓(xùn)練。
6.根據(jù)權(quán)利要求5所述的一種企業(yè)信用評(píng)分樣本標(biāo)注方法,其特征在于,在步驟S401中,首先對(duì)入模指標(biāo)中的無(wú)效值進(jìn)行處理,對(duì)部分可量化指標(biāo)進(jìn)行數(shù)值量化;然后對(duì)入模指標(biāo)進(jìn)行缺失值統(tǒng)計(jì),去除缺失值大于80%的訓(xùn)練指標(biāo);針對(duì)剩余指標(biāo)進(jìn)行同值率的統(tǒng)計(jì),去除屬性只有一個(gè)值的特征,去除屬性同值率大于80%的指標(biāo);
在步驟S402中,根據(jù)最近一段時(shí)間是否有明確好壞含義的指標(biāo)標(biāo)注部分樣本。
7.根據(jù)權(quán)利要求6所述的一種企業(yè)信用評(píng)分樣本標(biāo)注方法,其特征在于,在步驟S403中,進(jìn)一步的包括:
(1)初始化中心點(diǎn)
在無(wú)標(biāo)簽的樣本中隨機(jī)挑選兩個(gè)樣本作為初始的聚類(lèi)中心;
(2)需求最優(yōu)聚類(lèi)中心
a.計(jì)算每個(gè)樣本點(diǎn)與這個(gè)兩個(gè)個(gè)簇中心的相似度大小,并將該樣本點(diǎn)劃分到與之相似度最大的簇中心所對(duì)應(yīng)的簇中;
b.根據(jù)現(xiàn)有的簇中樣本,重新計(jì)算每個(gè)簇的簇中心;
c.循環(huán)迭代步驟a和步驟b,直到目標(biāo)函數(shù)收斂,即簇中心不再發(fā)生變化;
(3)計(jì)簇中心算過(guò)程
a.設(shè)X={X1,X2,…,X_n}為一個(gè)含有n個(gè)樣本的數(shù)據(jù)集,其中第i個(gè)數(shù)據(jù)對(duì)象表示為X_i={x_i1,x_i2,…,x_im},m為數(shù)據(jù)對(duì)象特征的數(shù)目,數(shù)據(jù)對(duì)象分配矩陣U是一個(gè)n*k的0-1矩陣(里面只有0和1),u_ip表示第i個(gè)樣本被分到第p個(gè)簇中,Z=Z1,Z2,…,Z_k為k個(gè)簇中心向量,其中Z_p={z_p1,z_p2,…,z_pm}為第p個(gè)簇中心,則Kmeans聚類(lèi)算法的目標(biāo)函數(shù)可以寫(xiě)為:
并且服從于約束條件:
(4)聚類(lèi)完成后,對(duì)含有標(biāo)簽的樣本進(jìn)行驗(yàn)證驗(yàn),如果測(cè)試結(jié)果誤差在合理范圍內(nèi),那么可用于后續(xù)標(biāo)注,否則,重新選擇初始簇中心,優(yōu)化迭代聚類(lèi)結(jié)果。
8.根據(jù)權(quán)利要求7所述的一種企業(yè)信用評(píng)分樣本標(biāo)注方法,其特征在于,在步驟S404中,若聚類(lèi)結(jié)果符合要求后,那么通過(guò)聚類(lèi)結(jié)果對(duì)未標(biāo)注的樣本進(jìn)行標(biāo)注;
在步驟S405中,對(duì)所有的樣本標(biāo)注相應(yīng)的標(biāo)簽,進(jìn)行信用評(píng)分模型的訓(xùn)練,
(1)相關(guān)性分析、共線(xiàn)性分析,去除指標(biāo)之間相關(guān)性,共線(xiàn)性過(guò)高的指標(biāo);
(2)xgboost指標(biāo)重要性分析,篩選出對(duì)模型起關(guān)鍵作用的指標(biāo);
(3)對(duì)指標(biāo)進(jìn)行分布檢驗(yàn)并做轉(zhuǎn)換;
(4)基于邏輯回歸訓(xùn)練模型;
(5)評(píng)分卡轉(zhuǎn)換。
9.一種企業(yè)信用評(píng)分樣本標(biāo)注裝置,其特征在于,包括:至少一個(gè)存儲(chǔ)器和至少一個(gè)處理器;
所述至少一個(gè)存儲(chǔ)器,用于存儲(chǔ)機(jī)器可讀程序;
所述至少一個(gè)處理器,用于調(diào)用所述機(jī)器可讀程序,執(zhí)行權(quán)利要求1至8中任一所述的方法。
該專(zhuān)利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專(zhuān)利權(quán)人授權(quán)。該專(zhuān)利全部權(quán)利屬于天元大數(shù)據(jù)信用管理有限公司,未經(jīng)天元大數(shù)據(jù)信用管理有限公司許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買(mǎi)此專(zhuān)利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202210069986.2/1.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專(zhuān)利網(wǎng)。
- 同類(lèi)專(zhuān)利
- 專(zhuān)利分類(lèi)
G06K 數(shù)據(jù)識(shí)別;數(shù)據(jù)表示;記錄載體;記錄載體的處理
G06K9-00 用于閱讀或識(shí)別印刷或書(shū)寫(xiě)字符或者用于識(shí)別圖形,例如,指紋的方法或裝置
G06K9-03 .錯(cuò)誤的檢測(cè)或校正,例如,用重復(fù)掃描圖形的方法
G06K9-18 .應(yīng)用具有附加代碼標(biāo)記或含有代碼標(biāo)記的打印字符的,例如,由不同形狀的各個(gè)筆畫(huà)組成的,而且每個(gè)筆畫(huà)表示不同的代碼值的字符
G06K9-20 .圖像捕獲
G06K9-36 .圖像預(yù)處理,即無(wú)須判定關(guān)于圖像的同一性而進(jìn)行的圖像信息處理
G06K9-60 .圖像捕獲和多種預(yù)處理作用的組合
- 一種企業(yè)信用網(wǎng)站系統(tǒng)
- 一種企業(yè)信用評(píng)估系統(tǒng)
- 一種企業(yè)信用查詢(xún)與展示的方法及系統(tǒng)
- 一種用于識(shí)別企業(yè)信用度的系統(tǒng)
- 一種企業(yè)信用評(píng)估方法及系統(tǒng)
- 一種企業(yè)信用度的評(píng)估系統(tǒng)
- 一種使用企業(yè)數(shù)據(jù)來(lái)生成企業(yè)信用分?jǐn)?shù)的方法
- 一種企業(yè)信用識(shí)別與監(jiān)控系統(tǒng)
- 一種基于信息共用的分布式企業(yè)信用評(píng)估方法
- 一種企業(yè)信用評(píng)價(jià)方法、裝置、設(shè)備及計(jì)算機(jī)存儲(chǔ)介質(zhì)
- 供應(yīng)商評(píng)分系統(tǒng)及方法
- 用戶(hù)評(píng)分實(shí)現(xiàn)方法、用戶(hù)評(píng)分客戶(hù)端和電子設(shè)備
- 一種評(píng)分信息處理方法及裝置
- 一種評(píng)分統(tǒng)一方法、裝置及存儲(chǔ)介質(zhì)
- 基于風(fēng)險(xiǎn)的資產(chǎn)評(píng)分方法和系統(tǒng)
- 一種交易評(píng)價(jià)的方法、裝置及終端
- 評(píng)分方法、裝置及移動(dòng)終端、服務(wù)器、存儲(chǔ)介質(zhì)
- 檢驗(yàn)節(jié)目評(píng)分有效性的方法及設(shè)備
- 疼痛評(píng)分尺
- 便攜式MEWS評(píng)分參照盤(pán)
- 樣本引入裝置、樣本引入基片和樣本引入方法
- 樣本查找方法、裝置及系統(tǒng)
- 模型訓(xùn)練、樣本平衡方法及裝置以及個(gè)人信用評(píng)分系統(tǒng)
- 樣本輸送系統(tǒng)、樣本輸送方法以及樣本檢測(cè)系統(tǒng)
- 樣本分析裝置、樣本檢測(cè)設(shè)備及樣本檢測(cè)方法
- 樣本檢測(cè)方法、樣本檢測(cè)裝置及樣本檢測(cè)系統(tǒng)
- 樣本架、樣本混勻系統(tǒng)及樣本分析儀
- 樣本收集管及樣本收集系統(tǒng)
- 樣本數(shù)據(jù)集的擴(kuò)容方法及模型的訓(xùn)練方法
- 行人重識(shí)別的噪聲樣本識(shí)別方法、裝置、設(shè)備和存儲(chǔ)介質(zhì)
- 標(biāo)注信息生成裝置、查詢(xún)裝置及共享系統(tǒng)
- 一種圖像分割標(biāo)注方法、裝置及計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)
- 一種數(shù)據(jù)標(biāo)注方法
- 一種基于群智的語(yǔ)料庫(kù)數(shù)據(jù)標(biāo)注方法及系統(tǒng)
- 一種圖像標(biāo)注方法和裝置
- 一種樣本標(biāo)注方法、裝置、存儲(chǔ)介質(zhì)及設(shè)備
- 數(shù)據(jù)標(biāo)注管理方法及裝置、電子設(shè)備和可讀存儲(chǔ)介質(zhì)
- 標(biāo)注的更新方法、裝置、存儲(chǔ)介質(zhì)、處理器以及運(yùn)載工具
- 數(shù)據(jù)的標(biāo)注方法和裝置
- 一種智能標(biāo)注平臺(tái)的方法、裝置、電子設(shè)備和存儲(chǔ)介質(zhì)





