[發明專利]一種特征線性無關的模型訓練方法和裝置在審
| 申請號: | 202010905517.0 | 申請日: | 2020-09-01 |
| 公開(公告)號: | CN112016700A | 公開(公告)日: | 2020-12-01 |
| 發明(設計)人: | 宋雨 | 申請(專利權)人: | 中國銀行股份有限公司 |
| 主分類號: | G06N20/00 | 分類號: | G06N20/00;G06Q40/02 |
| 代理公司: | 北京集佳知識產權代理有限公司 11227 | 代理人: | 韓麗波 |
| 地址: | 100818 *** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 特征 線性 無關 模型 訓練 方法 裝置 | ||
本申請實施例公開了一種特征線性無關的模型訓練方法和裝置,在確定原始特征之間線性無關時,針對每個類別的原始特征進行特征衍生,得到衍生后的特征矩陣;原始特征中包括多個不同類別的特征,多個不同類別的特征之間橫向排列;對衍生后的特征矩陣進行特征排列轉換,將多個不同類別的特征之間由橫向排列轉換為縱向排列,得到轉換后的特征矩陣;根據轉換后的特征矩陣運用機器學習算法進行模型訓練。由于對特征矩陣進行轉換后,每個類別的特征作為一條樣本,特征由原本的橫向排列變為縱向排列,故而機器學習算法在訓練時,不會學習出特征之間的關聯關系,減少了引入特征間不必要的關聯帶來的影響例如噪音等,大大提升模型預測效果,促使模型落地,實現業務需求。
技術領域
本申請涉及人工智能領域,特別是涉及一種特征線性無關的模型訓練方法和裝置。
背景技術
基于人工智能訓練模型在銀行業務的應用越來越多,例如訓練得到用于信用卡反欺詐的預測模型。
考慮到數據泄露風險等,數據會經過脫敏處理,當處理后的數據之間相關性非常小或者線性無關時,采用傳統的模型訓練方法進行模型訓練時,由于特征之間是橫向排列,機器學習算法在擬合問題的過程中,會學習到特征之間的關聯關系,而這種關聯關系屬于噪音,從而導致該模型的最終預測效果比較差,難以滿足業務需求。
發明內容
為了解決上述技術問題,本申請提供了一種特征線性無關的模型訓練方法和裝置,減少了引入特征間不必要的關聯帶來的影響例如噪音等,大大提升模型預測效果,促使模型落地,實現業務需求,使用AI賦能業務,降本增效。
第一方面,本申請實施例提供一種特征線性無關的模型訓練方法,所述方法包括:
在確定原始特征之間線性無關時,針對每個類別的所述原始特征進行特征衍生,得到衍生后的特征矩陣;所述原始特征中包括多個不同類別的特征,所述多個不同類別的特征之間橫向排列;
對衍生后的特征矩陣進行特征排列轉換,將所述多個不同類別的特征之間由橫向排列轉換為縱向排列,得到轉換后的特征矩陣;
根據轉換后的特征矩陣運用機器學習算法進行模型訓練。
可選的,所述對衍生后的特征矩陣進行特征排列轉換,將所述多個不同類別的特征之間由橫向排列轉換為縱向排列,得到轉換后的特征矩陣,包括:
將衍生后的特征矩陣剪切為所述不同類別的特征分別對應的子矩陣,一個所述子矩陣中包括一個類別的原始特征及衍生特征;
將所述不同類別的特征分別對應的子矩陣按列進行拼接,得到所述轉換后的特征矩陣。
可選的,所述衍生后的特征矩陣中還包括每個類別的所述原始特征的特征標識,所述針對每個類別的所述原始特征進行特征衍生,得到衍生后的特征矩陣,包括:
針對每個類別的所述原始特征進行特征衍生,并為每個類別的所述原始特征添加特征標識,得到衍生后的特征矩陣。
可選的,所述針對每個類別的所述原始特征進行特征衍生,得到衍生后的特征矩陣之前,所述方法還包括:
確定所述原始特征之間的線性相關程度;
根據所述線性相關程度確定所述原始特征之間是否線性無關。
可選的,所述確定所述原始特征之間的線性相關程度,包括:
計算所述原始特征之間的皮爾遜相關系數;
根據所述皮爾遜相關系數確定所述原始特征之間的線性相關程度。
第二方面,本申請實施例提供一種特征線性無關的模型訓練裝置,所述裝置包括:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中國銀行股份有限公司,未經中國銀行股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010905517.0/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種文本識別方法及相關設備
- 下一篇:一種銀行網點管理方法和裝置





