[發明專利]特征分箱方法、裝置、設備及計算機可讀存儲介質有效
| 申請號: | 202010296447.3 | 申請日: | 2020-04-15 |
| 公開(公告)號: | CN111506485B | 公開(公告)日: | 2021-07-27 |
| 發明(設計)人: | 譚明超;范濤;馬國強;陳天健;楊強 | 申請(專利權)人: | 深圳前海微眾銀行股份有限公司 |
| 主分類號: | G06F11/34 | 分類號: | G06F11/34;G06F21/62;G06F21/60;G06N20/00 |
| 代理公司: | 深圳市世紀恒程知識產權代理事務所 44287 | 代理人: | 許峰 |
| 地址: | 518000 廣東省深圳市前海深港合作區前*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 特征 方法 裝置 設備 計算機 可讀 存儲 介質 | ||
本發明公開了一種特征分箱方法、裝置、設備及計算機可讀存儲介質,所述方法包括:接收各所述第二終端發送的待分箱特征的備選分位點,其中,各所述第二終端基于各自的特征數據求取得到各自的所述備選分位點;基于各所述備選分位點確定所述待分箱特征的最終分位點。本發明實現在數據分布在多方,需要多方聯合進行特征分箱的場景下,能夠在保護數據隱私的情況下完成聯合特征分箱,提升了數據安全性,適應于對數據隱私要求嚴格的應用場景。
技術領域
本發明涉及人工智能技術領域,尤其涉及一種特征分箱方法、裝置、設備及計算機可讀存儲介質。
背景技術
隨著計算機技術的發展,越來越多的技術(大數據、分布式、區塊鏈Blockchain、人工智能等)應用在金融領域,傳統金融業正在逐步向金融科技(Fintech)轉變,但由于金融行業的安全性、實時性要求,也對技術提出了更高的要求。
目前,在很多領域需要對特征進行分箱,例如,在機器學習中,特征分箱并基于分箱結果求變量的顯著性等過程往往是特征工程的重要方法,比如,要考察特征與標簽之間的相關程度時,iv(Information Value,信息價值)值往往是變量顯著性的重要指標,可運用于特征選擇之中。
但是,目前,當待分箱特征的特征數據分布存放在多方,需要聯合多方進行特征分箱時,各方采用互相發送特征數據的方式來進行聯合特征分箱,這種方式會互相暴露各自的數據,若需要對各方的數據進行隱私保護,則無法聯合各方進行特征分箱。
發明內容
本發明的主要目的在于提供一種特征分箱方法、裝置、設備及計算機可讀存儲介質,旨在目前聯合多方進行特征分箱的方式會暴露各自的數據,無法做到隱私保護的問題。
為實現上述目的,本發明提供一種特征分箱方法,所述特征分箱方法應用于第一終端,所述第一終端與第二終端通信連接,所述特征分箱方法包括以下步驟:
接收各所述第二終端發送的待分箱特征的備選分位點,其中,各所述第二終端基于各自的特征數據求取得到各自的所述備選分位點;
基于各所述備選分位點確定所述待分箱特征的最終分位點。
進一步地,所述基于各所述備選分位點確定所述待分箱特征的最終分位點的步驟包括:
檢測各所述備選分位點是否滿足預設的數據分布平衡條件;
若各所述備選分位點滿足所述數據分布平衡條件,則從各所述備選分位點中選擇一個備選分位點作為所述待分箱特征的最終分位點。
進一步地,所述檢測各所述備選分位點是否滿足預設的數據分布平衡條件的步驟包括:
從各所述備選分位點中確定最大值和最小值;
檢測所述最大值與所述最小值的差值是否小于預設閾值,以檢測各所述備選分位點是否滿足預設的數據分布平衡條件;
所述若各所述備選分位點滿足所述數據分布平衡條件,則從各所述備選分位點中確定一個備選分位點作為所述待分箱特征的最終分位點的步驟包括:
若所述差值小于所述預設閾值,則確定各所述備選分位點滿足所述數據分布平衡條件,并將所述最大值或所述最小值作為所述待分箱特征的最終分位點。
進一步地,所述檢測所述最大值與所述最小值的差值是否小于預設閾值的步驟之后,還包括:
若所述差值大于或等于所述預設閾值,則確定各所述備選分位點不滿足所述數據分布平衡條件,并將所述最大值和所述最小值發送給各所述第二終端,以供各所述第二終端確定所述最大值和所述最小值所限定的數值區間,并基于各自特征數據中處于所述數值區間的特征數據求取得到各自新的備選分位點;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于深圳前海微眾銀行股份有限公司,未經深圳前海微眾銀行股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010296447.3/2.html,轉載請聲明來源鉆瓜專利網。





