[發明專利]數據離散化方法、裝置、電子設備、存儲介質及程序產品有效
| 申請號: | 202110735325.4 | 申請日: | 2021-06-30 |
| 公開(公告)號: | CN113570024B | 公開(公告)日: | 2022-08-12 |
| 發明(設計)人: | 劉敏 | 申請(專利權)人: | 貝殼找房(北京)科技有限公司 |
| 主分類號: | G06N3/00 | 分類號: | G06N3/00;G06N3/04;G06N3/08 |
| 代理公司: | 北京路浩知識產權代理有限公司 11002 | 代理人: | 王治東 |
| 地址: | 100085 北京市海淀區*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 數據 離散 方法 裝置 電子設備 存儲 介質 程序 產品 | ||
本發明提供一種數據離散化方法、裝置、電子設備、存儲介質及程序產品,所述方法包括:將待離散化的連續特征對應的標簽、預設至少一個離散化類別值及預設適應度函數作為粒子群優化算法的參數;基于所述粒子群優化算法對所述連續特征進行離散化處理得到所述連續特征對應的N個分割點,將所述連續特征離散化到所述N個分割點對應的(N+1)個區間內,得到所述連續特征對應的離散化特征。本發明實施例提供的數據離散化方法、裝置、電子設備、存儲介質及程序產品,通過粒子群優化算法得到了連續特征的最佳離散化方案,基于最佳離散化方案得到的離散化特征可以實現對于模型的有效訓練,提高模型的泛化能力。
技術領域
本發明涉及數據處理技術領域,尤其涉及一種數據離散化方法、裝置、電子設備、存儲介質及程序產品。
背景技術
通常在機器學習中,在將特征輸入模型訓練之前,需要對特征做一些處理。其中有一種特征處理方法就是連續特征離散化——把連續特征變成類別特征,能夠增加模型的泛化能力,對異常特征也有很好的魯棒性。
現有連續特征離散化的方法主要有等頻離散化和等距離散化這兩種方式。其中等頻離散化就是將連續特征分成N類,每個類別的數據量是一樣多的;等距離散化就是將連續特征分成N類,每個類別的最大值和最小值的距離(極差)是一樣的。此外,還有一些使用KMeans聚類等機器學習算法進行離散化的方法。
對于通過等頻離散化、等距離散化或者KMeans聚類算法等對連續特征進行離散化處理時,都需要對離散化類別值進行預先人工設定,然后通常需要大量的人力和時間進行離散化策略的嘗試,最后通過人工比較,才能得到最優的離散化分類方案。
發明內容
為解決現有技術中的問題,本發明提供了一種數據離散化方法、裝置、電子設備、存儲介質及程序產品。
本發明提供一種數據離散化方法,包括:將待離散化的連續特征對應的標簽、預設至少一個離散化類別值及預設適應度函數作為粒子群優化算法的參數;基于所述粒子群優化算法對所述連續特征進行離散化處理得到所述連續特征對應的N個分割點,將所述連續特征離散化到所述N個分割點對應的(N+1)個區間內,得到所述連續特征對應的離散化特征。
根據本發明提供的一種數據離散化方法,所述基于所述粒子群優化算法對所述連續特征進行離散化處理得到所述連續特征對應的N個分割點,包括:利用所述粒子群優化算法基于所述預設適應度函數獲取最優離散化類別值,并基于所述預設適應度函數和所述最優離散化類別值對所述連續特征進行離散化處理得到所述連續特征對應的N個分割點。
根據本發明提供的一種數據離散化方法,所述最優離散化類別值為所述預設至少一個離散化類別值中的一個。
根據本發明提供的一種數據離散化方法,所述連續特征對應的標簽與基于所述離散化特征訓練目標神經網絡模型時輸出的標簽一致;并且/或者,所述連續特征對應的標簽用于所述粒子群優化算法在搜索所述分割點時,將具備相同標簽的所述連續特征分割到同一個區間。根據本發明提供的一種數據離散化方法,所述預設適應度函數與所述目標神經網絡模型的損失函數的優化目標一致。
根據本發明提供的一種數據離散化方法,將所述連續特征離散化到所述N個分割點對應的(N+1)個區間內,得到所述連續特征對應的離散化特征,包括:將所述連續特征離散化到所述(N+1)個區間內,將每個所述區間內的所述連續特征賦予相應區間的預設離散化值,根據所述預設離散化值得到所述連續特征對應的離散化特征。
本發明還提供一種數據離散化裝置,包括:參數設置模塊,用于:將待離散化的連續特征對應的標簽、預設至少一個離散化類別值及預設適應度函數作為粒子群優化算法的參數;
離散化處理模塊,用于:基于所述粒子群優化算法對所述連續特征進行離散化處理得到所述連續特征對應的N個分割點,將所述連續特征離散化到所述N個分割點對應的(N+1)個區間內,得到所述連續特征對應的離散化特征。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于貝殼找房(北京)科技有限公司,未經貝殼找房(北京)科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110735325.4/2.html,轉載請聲明來源鉆瓜專利網。
- 數據顯示系統、數據中繼設備、數據中繼方法、數據系統、接收設備和數據讀取方法
- 數據記錄方法、數據記錄裝置、數據記錄媒體、數據重播方法和數據重播裝置
- 數據發送方法、數據發送系統、數據發送裝置以及數據結構
- 數據顯示系統、數據中繼設備、數據中繼方法及數據系統
- 數據嵌入裝置、數據嵌入方法、數據提取裝置及數據提取方法
- 數據管理裝置、數據編輯裝置、數據閱覽裝置、數據管理方法、數據編輯方法以及數據閱覽方法
- 數據發送和數據接收設備、數據發送和數據接收方法
- 數據發送裝置、數據接收裝置、數據收發系統、數據發送方法、數據接收方法和數據收發方法
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置





