[發明專利]實體關系抽取技術在銀行風控中的應用方法在審
| 申請號: | 202010756980.3 | 申請日: | 2020-07-31 |
| 公開(公告)號: | CN111859922A | 公開(公告)日: | 2020-10-30 |
| 發明(設計)人: | 李夢霄;馬方 | 申請(專利權)人: | 上海銀行股份有限公司 |
| 主分類號: | G06F40/232 | 分類號: | G06F40/232;G06F40/295;G06F40/30;G06F16/36;G06Q40/02 |
| 代理公司: | 上海翰信知識產權代理事務所(普通合伙) 31270 | 代理人: | 張維東 |
| 地址: | 200120 上海市浦*** | 國省代碼: | 上海;31 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 實體 關系 抽取 技術 銀行 中的 應用 方法 | ||
本發明涉及一種實體關系抽取技術在銀行風控中的應用方法,所述實體關系包括實體的對公關系和對私關系,包括以下步驟:數據獲取,分別獲取對公關系和對私關系訓練數據集;模型訓練,分別深度訓練對公關系和對私關系訓練數據集形成對公關系和對私關系抽取模型;模型預測,分別采用對公關系和對私關系抽取模型抽取新聞文本中的實體及其關系,形成對公關系和對私關系預測集;關系融合,融合對公關系和對私關系預測集中各實體所對應的對公關系和對私關系;構建圖譜并將圖譜運用于銀行的風控系統中。本發明通過分開獲取訓練數據集并分開訓練抽取模型,降低了訓練噪音;另外將隨時更新的圖譜應用于風險預測等模型,能提高風險預測模型的精度。
技術領域
本發明涉及風控技術領域,特別涉及一種實體關系抽取技術在銀行風控中的應用方法。
背景技術
隨著互聯網金融和電子商務的發展,人們利用網絡進行交易、支付和借貸,通常在借貸和支付的過程中,風險控制評估就顯得非常關鍵。然而風險控制評估通常需要基于風控數據,例如實體關系數據等。對于獲取實體關系數據,現有技術中通常采用購買第三方數據或人工查詢等方式獲取,導致風控成本的增加和人力的浪費。
因此有必要提供一種實體關系抽取技術在銀行風控中的應用方法,同時采用算法抽取和人工核驗的方法獲取實體關系數據,減少人力浪費,并控制成本。
發明內容
本發明的目的在于提供一種實體關系抽取技術在銀行風控中的應用方法,同時采用算法抽取和人工核驗的方法獲取實體關系數據,減少人力浪費,并控制成本。
為了解決現有技術中存在的問題,本發明提供了一種實體關系抽取技術在銀行風控中的應用方法,所述實體關系包括實體的對公關系和對私關系,包括以下步驟:
數據獲取,獲取對公關系訓練數據集和對私關系訓練數據集;
模型訓練,深度訓練對公關系訓練數據集形成對公關系抽取模型,深度訓練對私關系訓練數據集形成對私關系抽取模型;
模型預測,分別采用對公關系抽取模型和對私關系抽取模型抽取新聞文本中的實體及其關系,形成對公關系預測集和對私關系預測集;
關系融合,融合對公關系預測集和對私關系預測集中各實體所對應的對公關系和對私關系;
圖譜構建,根據各實體所對應的對公關系和對私關系構建各實體的圖譜關系,各實體的圖譜關系與銀行內部圖譜融合形成綜合圖譜;
結果運用,將所述綜合圖譜運用于銀行的風控系統中。
可選的,在所述實體關系抽取技術在銀行風控中的應用方法中,獲取對公關系訓練數據集包括以下步驟:
抽取新聞文本;
采用NLP技術對抽取的新聞文本進行解析操作,得到新聞文本每條語句中包含的實體,以及各實體之間的對公關系,形成對公訓練三元組;
人工對得到的對公訓練三元組和其對應的新聞文本語句進行核驗;
若核驗通過,則由所有對公訓練三元組和其對應的新聞文本語句形成對公關系訓練數據集,若核驗不通過,則人工進行修改或刪除。
可選的,在所述實體關系抽取技術在銀行風控中的應用方法中,所述解析操作包括:對抽取的新聞文本進行分詞、詞性分析、句法分析和語義標注操作。
可選的,在所述實體關系抽取技術在銀行風控中的應用方法中,獲取對私關系訓練數據集包括以下步驟:
獲取公開數據集,抽取公開數據集中對私關系的數據作為對私關系訓練數據集,對私關系訓練數據集中包括對私訓練三元組和其對應的文本語句。
可選的,在所述實體關系抽取技術在銀行風控中的應用方法中,在模型預測過程中,還包括以下步驟:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于上海銀行股份有限公司,未經上海銀行股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010756980.3/2.html,轉載請聲明來源鉆瓜專利網。





