[發明專利]一種基于銀行對公數據的知識圖譜構建方法和裝置在審
| 申請號: | 202110382082.0 | 申請日: | 2021-04-09 |
| 公開(公告)號: | CN113065657A | 公開(公告)日: | 2021-07-02 |
| 發明(設計)人: | 徐英浩;尚朝;姚崢潔;陳樹華 | 申請(專利權)人: | 頂象科技有限公司 |
| 主分類號: | G06N5/02 | 分類號: | G06N5/02;G06Q40/02 |
| 代理公司: | 北京云科知識產權代理事務所(特殊普通合伙) 11483 | 代理人: | 張飆 |
| 地址: | 311121 浙江省杭州市余杭*** | 國省代碼: | 浙江;33 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 銀行 數據 知識 圖譜 構建 方法 裝置 | ||
本發明公開了一種基于銀行對公數據的知識圖譜構建方法和裝置,所述方法包括以下步驟:S1.數據采集,為采集到的每個數據源建立主鍵;S2.數據清洗,對原始數據中臟數據、缺失值、異常值進行處理;S3.關聯分析,分析主表中的主鍵和其它數據源中的主鍵關聯率;S4.加工數據集市;S5.網絡本體層設計,相對于實體層進行網絡本體層設計,使得對公網絡中只有兩個本體,分別是人和企業;S6.網絡節點關系抽取。根據本發明的方法和裝置實現了知識圖譜構建過程中抽取重要關鍵信息同時剔除了大量無效實體,從而提高數據處理效率。
技術領域
本發明涉及信息技術領域,具體涉及一種基于銀行對公數據的知識圖譜構建方法和裝置。
背景技術
銀行業每天都要都要產生海量的交易數據,隨著商業銀行、金融機構業務的不斷發展從而積累了大量的業務數據,并且正在以更快的速度增長,要從這些海量數據中提取出有價值的實體和關系至關重要。
近年來,隨著大數據技術的快速發展和計算機運算的能力快速提升。機器學習以及深度學習技術在銀行業使用越來越廣發,并在很多應用場景取得了重大成果。2012年,谷歌提出了知識圖譜的概念,用于增強搜索引擎功能,知識圖譜其在本質上是一種概念網絡,其節點表示客觀物理世界中的實體,而邊則表示實體之間存在的各種語義關系。通過這些關系,可以構建企業關系網絡,也就是企業知識圖譜。構建企業知識圖譜,能夠幫助我們從大量雜亂的數據中挖掘出企業潛在關聯,生成企業畫像。
據了解,盡管高效集成的機器學習算法在銀行也具有廣泛的應用,但由于銀行業務分為對公業務和對私業務兩大類,對于對公業務,目前已知的對公知識圖譜節點繁多,充斥著大量無關緊要的實體和關系。如此龐大的數據也給銀行及其監管機構的數據分析部門帶來了巨大的挑戰。當數據分析任務的復雜性比較高時,由于節點和關系繁多,存在大量信息冗余,海量數據的計算會導致難以承受的開銷以及處理效率低下。如何對節點和關系繁多的海量金融數據進行知識圖譜構建,并對其進行分析,從而達到發現和規避金融風險的目的,是一個目前亟待解決的技術問題。因此需要研發一種銀行對公數據的知識圖譜構建方法和裝置,將圖譜中節點類型和關系高度抽象,抽取重要關鍵信息同時剔除了大量無效實體,從而簡化圖譜關系結構,提高數據處理效率。
發明內容
針對現有技術存在的問題,本發明的目的在于解決現有技術中銀行對公數據的知識圖譜構建中節點和關系繁多導致數據處理效率較低的技術問題,提供一種基于銀行對公數據的知識圖譜構建方法和裝置。
本發明提供一種基于銀行對公數據的知識圖譜構建方法,其特征在于,包括以下步驟:
S1.數據采集,為采集到的每個數據源建立主鍵;
S2.數據清洗,對原始數據中臟數據、缺失值、異常值進行處理;
S3.關聯分析,分析主表中的主鍵和其它數據源中的主鍵關聯率;
S4.加工數據集市,將步驟S3中需要參與構建數據集市的數據源按照主表中的主鍵進行合并;
S5.網絡本體層設計,相對于實體層進行網絡本體層設計,使得對公網絡中只有兩個本體,分別是人和企業;
S6.網絡節點關系抽取,從步驟S4中構建出的數據集市抽取出所有的實體以及實體和實體之間的關系。
進一步,步驟S1中,使用數據采集模塊進行數據采集,采集的數據源包括企業注冊信息、法人治理、無形資產、稅務數據、工商年檢數據、法院訴訟、股權質押、工商處罰、企業貸款逾期信息、企業授信信息、企業流動資產和/或企業固定資產;以企業社會統一代碼建立主鍵。
進一步,步驟S2中,對于缺失值的處理方法是刪除缺失率大于第一閾值的變量列,對于缺失率小于第一閾值的可通過將缺失樣本作為預測值,使用隨機森林算法計算出預測該值進行填充;
進一步,步驟S2中,對于異常值的處理是將異常值作為一種狀態使用特殊的標識進行填充,或將異常值剔除。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于頂象科技有限公司,未經頂象科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110382082.0/2.html,轉載請聲明來源鉆瓜專利網。
- 數據顯示系統、數據中繼設備、數據中繼方法、數據系統、接收設備和數據讀取方法
- 數據記錄方法、數據記錄裝置、數據記錄媒體、數據重播方法和數據重播裝置
- 數據發送方法、數據發送系統、數據發送裝置以及數據結構
- 數據顯示系統、數據中繼設備、數據中繼方法及數據系統
- 數據嵌入裝置、數據嵌入方法、數據提取裝置及數據提取方法
- 數據管理裝置、數據編輯裝置、數據閱覽裝置、數據管理方法、數據編輯方法以及數據閱覽方法
- 數據發送和數據接收設備、數據發送和數據接收方法
- 數據發送裝置、數據接收裝置、數據收發系統、數據發送方法、數據接收方法和數據收發方法
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置





