[發明專利]一種企業信用評分樣本標注方法及裝置在審
| 申請號: | 202210069986.2 | 申請日: | 2022-01-21 |
| 公開(公告)號: | CN114462516A | 公開(公告)日: | 2022-05-10 |
| 發明(設計)人: | 郭長營;崔樂樂;李仰允 | 申請(專利權)人: | 天元大數據信用管理有限公司 |
| 主分類號: | G06K9/62 | 分類號: | G06K9/62;G06Q40/02 |
| 代理公司: | 濟南信達專利事務所有限公司 37100 | 代理人: | 姜麗潔 |
| 地址: | 250100 山東省濟南市高新*** | 國省代碼: | 山東;37 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 企業信用 評分 樣本 標注 方法 裝置 | ||
本發明涉及金融信貸技術領域,具體提供了一種企業信用評分樣本標注方法,具有以下步驟:S1、多源異構數據分析融合建立標準數據庫;S2、構建進行信用評分的指標體系;S3、指標數據的預處理;S4、計算最優聚類中心。與現有技術相比,本發明在構建信用評分模型的好壞標簽時,首先基于具有明確好壞含義的指標為部分樣本標注標簽,然后基于kmeans聚類的結果,為其他未標注樣本打標簽;該方法很大程度上節約了人力成本以及人工標注的時間。
技術領域
本發明涉及金融信貸技術領域,具體提供一種企業信用評分樣本標注方法及裝置。
背景技術
隨著互聯網的迅速發展,人們的日常工作與生活習慣發生了質的改變?;ヂ摼W技術的發展和應用以迅雷不及掩耳之式滲透到各行各業,尤其是金融行業,傳統金融行業正接受著大數據、互聯網以及用戶體驗不平衡不對稱的嚴峻考驗。
大數據風控技術已經成為業內人士最關注的一個大數據應用焦點。金融風控模型是互聯網金融健康成長的必然趨勢。當前我國互聯網金融信用體系還不是很完善,征信系統和有關法律都含有一定的缺陷。
信用評分模型常用的方法是邏輯回歸,邏輯回歸(Logistic regression)是機器學習領域最為常見的模型方法之一,常常用于作為處理各種任務的基準模型(baseline)。當然各類任務往往最后所用模型的性能遠超過邏輯回歸方法,但是其模型結構的復雜度和訓練時間也往往超過邏輯回歸方法;因其可解釋性高的優點,在風控建模方面有廣泛的應用。
邏輯回歸的訓練是需要有標簽的數據;另外,在進行特征工程指標重要性分析時,也需要有標簽的數據,比如相關性分析、xgboost指標重要性分析等;然而,很多情況下,不能以現有的指標為所有的訓練數據標注合適的標簽,這會使得邏輯回歸建立信用評分模型的訓練樣本不足,或者無法訓練。
發明內容
本發明是針對上述現有技術的不足,提供一種實用性強的企業信用評分樣本標注方法
本發明進一步的技術任務是提供一種設計合理,安全適用的企業信用評分樣本標注裝置。
本發明解決其技術問題所采用的技術方案是:
一種企業信用評分樣本標注方法,具有以下步驟:
S1、多源異構數據分析融合建立標準數據庫;
S2、構建進行信用評分的指標體系;
S3、指標數據的預處理;
S4、計算最優聚類中心。
進一步的,在步驟S1中,基于用戶匯聚的多源數據,通過數據之間融合比對,不同原始字段對齊,對多源異構數據分析融合建立形成企業標準數據庫。
進一步的,在步驟S2中,基于建立的企業標準數據庫建設用于信用評分的指標體系,構建指標的數據來源官方數據、互聯網數據、第三方數據、入庫存量數據、API接口數據、結構化的基本信息和半結構化的數據。
進一步的,在步驟S3中,通過無效值處理、同值統計和缺失值統計完成指標數據的預處理工作;
所述無效值處理是去除無關信息;所述同值統計處理是對只含同值的字段、同值率高于80%的字段進行去除;缺失值統計處理對全部缺失、字段缺失率高于80%的字段進行去除。
進一步的,在步驟S4中,進一步的包括:
S401、對指標進行特征工程;
S402、篩選具有明確含義的指標并標注部分樣本;
S403、kmeans聚類需求最優聚類中心;
S404、標注無標簽樣本;
S405、信用評分模型訓練。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于天元大數據信用管理有限公司,未經天元大數據信用管理有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202210069986.2/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種基于大數據平臺的多源數據備份方法及系統
- 下一篇:一種胸外科用醫療箱





