[發(fā)明專利]一種快速卡方分箱的方法及裝置有效
| 申請?zhí)枺?/td> | 202110521538.7 | 申請日: | 2021-05-13 |
| 公開(公告)號: | CN112990487B | 公開(公告)日: | 2021-08-03 |
| 發(fā)明(設(shè)計)人: | 顧凌云;謝旻旗;段灣;王逸卿;張濤;潘峻 | 申請(專利權(quán))人: | 上海冰鑒信息科技有限公司 |
| 主分類號: | G06N20/00 | 分類號: | G06N20/00 |
| 代理公司: | 成都頂峰專利事務(wù)所(普通合伙) 51224 | 代理人: | 楊俊華 |
| 地址: | 200000 上海市浦東新區(qū)中國(*** | 國省代碼: | 上海;31 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 快速 卡方分箱 方法 裝置 | ||
本申請公開了一種快速卡方分箱的方法及裝置,能夠根據(jù)特征值進行特征值排序,得到特征值排序結(jié)果,通過特征值排序結(jié)果將每個特征值劃分為多個特征區(qū)間并進行計算,得到多個初始卡方值并保存在預(yù)設(shè)哈希列表中,通過初始雙向鏈表連通相鄰的所述特征區(qū)間。通過哈希列表中的預(yù)設(shè)鍵值獲得位置標(biāo)簽,確定最小卡方值的位置標(biāo)簽對應(yīng)的當(dāng)前節(jié)點,根據(jù)當(dāng)前節(jié)點內(nèi)容和后一個節(jié)點內(nèi)容,得到合并后的節(jié)點,將后一個節(jié)點刪除,對前一個節(jié)點的卡方值更新直到滿足設(shè)定條件。通過雙向鏈表能有效地保存每次操作的記錄,在刪除節(jié)點后,在可能存在相關(guān)處理結(jié)果不能達到預(yù)期的前提下,可以進行初始雙向鏈表的恢復(fù),進而能有效地避免重新分箱而導(dǎo)致時間浪費的問題。
技術(shù)領(lǐng)域
本公開涉及卡方分箱技術(shù)領(lǐng)域,特別涉及一種快速卡方分箱的方法及裝置。
背景技術(shù)
在相關(guān)云業(yè)務(wù)的機器學(xué)習(xí)建模的特征工程中,變量分箱是非常重要的一個步驟,其中,變量分箱對于異常值/缺失值處理、模型非線性表達以及降低過擬合風(fēng)險等方面都有很重要的作用。
在相關(guān)的監(jiān)督分箱中,卡方分箱是一種主流的且有效的方案。其原理是兩個分箱的卡方值相差越小,表示數(shù)據(jù)具有相似類別的分布情況,這樣就可以進行合并,反之則不能進行合并。通常情況下卡方分箱是預(yù)先設(shè)置的排序方法進行特征值排序,并進行劃分類屬區(qū)間,計算每一對相鄰區(qū)間對應(yīng)的卡方值,將最小的區(qū)間進行合并,循環(huán)迭代直到觸發(fā)終止條件包括卡方閾值、最大分箱數(shù)和單調(diào)性等。但是,相關(guān)卡方分箱技術(shù)存在耗時較長的技術(shù)問題。
發(fā)明內(nèi)容
為改善上述背景技術(shù)存在的技術(shù)問題,本公開提供了一種快速卡方分箱的方法及裝置。
本申請?zhí)峁┝艘环N快速卡方分箱的方法,所述方法包括:
獲取特征值,并對所述特征值進行排序,得到特征值排序結(jié)果;
根據(jù)所述特征值排序結(jié)果對所述特征值進行區(qū)間劃分,得到多個特征區(qū)間,計算每個所述特征區(qū)間對應(yīng)的初始卡方值并保存在預(yù)設(shè)哈希列表中;
通過初始雙向鏈表連通相鄰的所述特征區(qū)間,通過所述哈希列表中的預(yù)設(shè)鍵值對每個所述特征區(qū)間進行標(biāo)記,得到每個所述特征區(qū)間對應(yīng)的位置標(biāo)簽;
從所述哈希列表中查詢最小卡方值的位置標(biāo)簽對應(yīng)的當(dāng)前節(jié)點,對所述當(dāng)前節(jié)點中的節(jié)點內(nèi)容和所述當(dāng)前節(jié)點的后一個節(jié)點中的節(jié)點內(nèi)容進行節(jié)點內(nèi)容合并,以得到合并后的節(jié)點,將所述后一個節(jié)點刪除,并對所述當(dāng)前節(jié)點的前一個節(jié)點的卡方值進行更新,得到當(dāng)前雙向鏈表,直到滿足設(shè)定條件。
優(yōu)選地,獲取特征值,并對所述特征值進行排序,得到特征值排序結(jié)果,包括:
獲取特征值,將所述特征值按照從小到大的順序進行排序,得到特征值排序結(jié)果。
優(yōu)選地,根據(jù)所述特征值排序結(jié)果對所述特征值進行區(qū)間劃分,得到多個特征區(qū)間,計算每個所述特征區(qū)間對應(yīng)的初始卡方值并保存在預(yù)設(shè)哈希列表中,包括:
根據(jù)所述特征值排序結(jié)果對所述特征值進行區(qū)間劃分,得到多個特征區(qū)間,根據(jù)矩陣訓(xùn)練模型對每個所述特征區(qū)間進行計算,得到初始卡方值,并將所述初始卡方值保存在哈希列表中。
優(yōu)選地,通過初始雙向鏈表連通相鄰的所述特征區(qū)間,通過所述哈希列表中的預(yù)設(shè)鍵值對每個所述特征區(qū)間進行標(biāo)記,得到每個所述特征區(qū)間對應(yīng)的位置標(biāo)簽,包括:
通過初始雙向鏈表連通相鄰的所述特征區(qū)間;
將所述特征區(qū)間中的好壞樣本數(shù)、卡方值和相鄰區(qū)間信息轉(zhuǎn)化成鏈表節(jié)點;
根據(jù)所述哈希列表中的所述鏈表節(jié)點和所述卡方值對每個所述特征區(qū)間進行標(biāo)記,得到每個所述特征區(qū)間對應(yīng)的位置標(biāo)簽。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于上海冰鑒信息科技有限公司,未經(jīng)上海冰鑒信息科技有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110521538.7/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 配電箱
- 評分卡模型的建立方法、裝置、計算機設(shè)備和存儲介質(zhì)
- 數(shù)據(jù)挖掘方法、裝置、計算機設(shè)備及計算機可讀存儲介質(zhì)
- 用戶智能化分層方法、裝置、電子設(shè)備及可讀存儲介質(zhì)
- 一種基于第三方數(shù)據(jù)的消費金融信用評分卡開發(fā)方法
- 特征值分箱方法、系統(tǒng)及裝置
- 銀行業(yè)務(wù)數(shù)據(jù)的分箱方法及系統(tǒng)
- 一種嵌入平滑參數(shù)的信用風(fēng)險評分方法
- 對特征序列進行分箱的方法、裝置及計算機可讀存儲介質(zhì)
- 一種數(shù)據(jù)處理方法、裝置和用于數(shù)據(jù)處理的裝置





