[發明專利]一種變量分組方法及相關設備在審
| 申請號: | 201910583362.0 | 申請日: | 2019-06-28 |
| 公開(公告)號: | CN112148706A | 公開(公告)日: | 2020-12-29 |
| 發明(設計)人: | 張焯 | 申請(專利權)人: | 重慶小雨點小額貸款有限公司 |
| 主分類號: | G06F16/21 | 分類號: | G06F16/21;G06F16/22;G06F16/2458 |
| 代理公司: | 廣州三環專利商標代理有限公司 44202 | 代理人: | 郝傳鑫;熊永強 |
| 地址: | 401120 重*** | 國省代碼: | 重慶;50 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 變量 分組 方法 相關 設備 | ||
本發明實施例公開了一種變量分組方法及相關設備,所述方法應用于機器學習技術領域,包括:將變量對應的多個取值依照預設順序排列,并根據每個取值的排列順序創建每個取值對應的索引。進一步地,可以依照預設劃分規則將第一索引至第n索引之間的索引區域劃分為至少一種區域組,并確定變量在至少一種區域組中每種區域組下的皮爾森卡方統計量,從至少一種區域組中確定出對應的皮爾森卡方統計量最大的目標區域組,進而基于目標區域組對變量進行分組。采用本申請,可以對變量進行離散化分組,有利于增大變量的皮爾森卡方統計量,提高該變量所構建數據安全模型輸出結果的準確率。
技術領域
本發明涉及信息處理技術領域,尤其涉及一種變量分組方法及相關設備。
背景技術
防止數據泄露對每個企業來說都是比較棘手的問題,一般情況下,企業會通過建立數據安全模型對企業員工的數據使用情況進行監控。在數據安全模型的建模過程中,通常涉及到對變量(例如員工賬戶健康度)的離散化,離散化后得到的類別型變量與目標變量之間關聯性強弱決定了最終模型輸出結果的準確性。皮爾遜卡方(PearsonChi-square)統計量是衡量類別型變量與目標變量之間關聯性的指標,構建模型所采用變量的皮爾遜卡方統計量越大,類別型變量與目標變量之間關聯性越強,則構建后模型的輸出結果越準確。
對于同一個變量而言,采用不同的分組方式進行分組,得到的皮爾遜卡方統計量存在差異。目前,對變量進行分組通常采用的方法為等容分組方法,但采用該方法分組得到變量的皮爾遜卡方統計量較低。因此,如何更好的對變量進行分組,以提高模型輸出結果的準確率,成為一個亟待解決的問題。
發明內容
本發明實施例提供了一種變量分組方法及相關設備,有利于增大變量的皮爾森卡方統計量,提高該變量所構建數據安全模型輸出結果的準確率。
第一方面,本發明實施例提供了一種變量分組方法,該方法包括:
將變量對應的多個取值依照預設順序排列,并根據每個取值的排列順序創建所述每個取值對應的索引;
依照預設劃分規則將第一索引至第n索引之間的索引區域劃分為至少一種區域組,每種區域組表征了對所述索引區域的一種劃分方式,所述每種區域組包括至少兩個區域,所述第一索引對應取值的排列順序為1,所述第n索引對應取值的排列順序為n,所述n為大于或者等于1的整數;
確定所述變量在所述每種區域組下的皮爾森卡方統計量,并從所述至少一種區域組中確定出皮爾森卡方統計量最大的目標區域組;
基于所述目標區域組對所述變量進行分組。
在一個實施例中,所述依照預設劃分規則將第一索引至第n索引之間的索引區域劃分為至少一種區域組的具體實施方式為:依照預設劃分規則對第一索引至第n索引之間的索引區域進行遞歸分割,得到至少一種區域組。
在一個實施例中,所述確定所述變量在所述至少一種區域組中每種區域組下的皮爾森卡方統計量的具體實施方式為:獲取預先存儲的所述變量在第一區域組下各個區域的皮爾森卡方統計量,所述第一區域組是所述至少一種區域組中的任一種,各個區域對應的樣本量大于或等于預設樣本量閾值;對所述各個區域的皮爾森卡方統計量進行求和,并將求和結果確定為所述變量在所述第一區域組下的皮爾森卡方統計量。
在一個實施例中,所述獲取預先存儲的所述變量在第一區域組下各個區域的皮爾森卡方統計量之前,還可以基于所述預設樣本量閾值對所述第一索引至第n索引之間的索引區域進行劃分,得到所述索引區域對應的至少兩個子區域,每個子區域對應的樣本量大于或者等于所述預設樣本量閾值;計算所述變量在各個子區域下的皮爾森卡方統計量,并將各個子區域與對應的皮爾森卡方統計量關聯存儲;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于重慶小雨點小額貸款有限公司,未經重慶小雨點小額貸款有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910583362.0/2.html,轉載請聲明來源鉆瓜專利網。





