[發明專利]一種混合值屬性審批數據的分類方法及系統在審
| 申請號: | 201910014482.9 | 申請日: | 2019-01-07 |
| 公開(公告)號: | CN109740680A | 公開(公告)日: | 2019-05-10 |
| 發明(設計)人: | 賈晉;何玉林 | 申請(專利權)人: | 深圳中創華安科技有限公司 |
| 主分類號: | G06K9/62 | 分類號: | G06K9/62;G06N3/04;G06Q40/02 |
| 代理公司: | 北京高沃律師事務所 11569 | 代理人: | 杜陽陽 |
| 地址: | 518000 廣東省深圳市龍華*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 屬性數據 數據集 審批 分類 熱編碼 編碼數據 神經網絡 數值屬性 不確定性 分類結果 實際輸出 數據包括 損失函數 最小化 集合 融合 輸出 轉換 | ||
本發明公開一種混合值屬性審批數據的分類方法及系統。包括:獲取待分類的混合值屬性的審批數據;所述審批數據包括離散值屬性數據集和連續值屬性數據集;采用獨熱編碼方法對所述離散值屬性數據集進行轉換,得到獨熱編碼數據集;基于神經網絡對所述獨熱編碼數據集進行深度編碼,得到深度編碼數據集;將所述深度編碼數據集和所述連續值屬性數據集合并,得到實數值屬性數據集;采用連續值屬性數據的分類方法對所述實數值屬性數據集進行分類,得到所述審批數據的分類結果。本發明融合了實際輸出與真實輸出之間的誤差和不確定性最小化損失函數的神經網絡來對審批數據中的離散值屬性進行深度編碼,從而提高混合值屬性審批數據的分類精度。
技術領域
本發明涉及數據分類領域,特別是涉及一種混合值屬性審批數據的分類方法及系統。
背景技術
混合值屬性是指數據的屬性既有離散的又有連續的,離散值屬性又被稱為符號值屬性,連續值屬性亦可被稱為實數值屬性。實際應用中大量的分類問題是與混合值屬性數據相關的。例如,信用卡審批過程,信用卡審批數據是一種典型的混合值屬性數據,根據申請人提交的待審批數據材料,通過對審批數據的審核,對其作出信用卡是否獲批的決定,要么信用卡獲批,要么信用卡不獲批。
對混合值屬性數據分類常見的方法就是對連續值屬性進行離散化(例如C4.5決策樹使用的就是對連續值屬性的二值離散化)或者是離散值屬性進行連續化(例如獨熱編碼及其變體)。獨熱編碼(One-hotEncoding)是一種經典的用于處理混合值屬性(Mixed-valueAttribute)數據集分類問題的編碼方式,它將符號表示離散值屬性轉換成0-1實數值表示的連續值屬性。例如,對于含有4個符號取值的離散值屬性B={B1,B2,B3,B4}而言,當樣本在屬性B上的取值分別為B1、B2、B3和B4時,進行獨熱編碼之后樣本對應該屬性的取值分別被表示為(1,0,0,0)、(0,1,0,0)、(0,0,1,0)和(0,0,0,1)。獨熱編碼在一定程度上解決了離散值屬性的連續化問題,但事實上,進行獨熱編碼操作之后的屬性取值在數值分布意義上講仍是離散的,而且是一種二值離散的,并沒有從根本上解決離散值屬性的連續化,在一定程度上限制了分類算法在混合值屬性審批數據上的表現,影響分類精度。
發明內容
本發明的目的是提供一種混合值屬性審批數據的分類方法及系統,用以處理混合值屬性審批數據的分類問題,本方法融合了實際輸出與真實輸出之間的誤差和不確定性最小化損失函數的神經網絡來對審批數據中的離散值屬性進行深度編碼,從而提高混合值屬性審批數據的分類精度。
為實現上述目的,本發明提供了如下方案:
一種混合值屬性審批數據的分類方法,包括:
獲取待分類的混合值屬性的審批數據;所述審批數據包括離散值屬性數據集和連續值屬性數據集;
采用獨熱編碼方法對所述離散值屬性數據集進行轉換,得到獨熱編碼數據集;
基于神經網絡對所述獨熱編碼數據集進行深度編碼,得到深度編碼數據集;
將所述深度編碼數據集和所述連續值屬性數據集合并,得到實數值屬性數據集;
采用連續值屬性數據的分類方法對所述實數值屬性數據集進行分類,得到所述審批數據的分類結果。
可選的,所述待分類的混合值屬性的審批數據為信用卡審批數據。
可選的,所述采用獨熱編碼方法對所述離散值屬性數據集進行轉換,得到獨熱編碼數據集,具體包括:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于深圳中創華安科技有限公司,未經深圳中創華安科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910014482.9/2.html,轉載請聲明來源鉆瓜專利網。





