[發明專利]數據分箱處理方法及裝置、電子設備和計算機可讀介質有效
| 申請號: | 201910504964.2 | 申請日: | 2019-06-12 |
| 公開(公告)號: | CN110245140B | 公開(公告)日: | 2020-07-17 |
| 發明(設計)人: | 陳星為 | 申請(專利權)人: | 同盾控股有限公司 |
| 主分類號: | G06F16/22 | 分類號: | G06F16/22;G06F16/27 |
| 代理公司: | 北京律智知識產權代理有限公司 11438 | 代理人: | 孫寶海;袁禮君 |
| 地址: | 311121 浙江省杭州市余*** | 國省代碼: | 浙江;33 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 數據 處理 方法 裝置 電子設備 計算機 可讀 介質 | ||
本公開提供一種數據分箱處理方法、裝置以及電子設備和計算機可讀介質,涉及數據處理領域,該方法包括:獲取待處理數據及其目標分箱方式和預設分箱數;若所述待處理數據的數據量大于等于預設閾值,則將所述待處理數據隨機分配至N個節點,N為大于1的正整數;根據所述預設分箱數并利用所述目標分箱方式對所述N個節點上的待處理數據進行處理,以確定所述待處理數據的目標分位點;根據所述目標分位點對所述待處理數據進行分箱操作以獲得分箱結果。本公開實施例提供的技術方案可以對數據量較大的數據進行分箱處理。
技術領域
本公開涉及數據處理技術領域,尤其涉及一種數據分箱處理方法及裝置、電子設備和計算機可讀介質。
背景技術
數據分箱是一種常用的數據處理方法。數據分箱實際上就是把數據按照某一屬性的屬性值劃分子區間,如按照年齡劃分子區間、按照身高劃分子區間等。如果一個數據的屬性值處于某個子區間范圍內,就把該數據放到該子區間代表的分箱內。
隨著大數據的發展,數據規模逐漸增大,一種能適應大規模數據的分箱方法,對于數據處理是具有極其重要的意義。
需要說明的是,在上述背景技術部分公開的信息僅用于加強對本公開的背景的理解,因此可以包括不構成對本領域普通技術人員已知的現有技術的信息。
發明內容
有鑒于此,本公開實施例提供一種數據分箱處理方法及裝置、電子設備和計算機可讀介質,能夠實現對數據規模較大數據進行分箱處理。
本公開的其他特性和優點將通過下面的詳細描述變得顯然,或部分地通過本公開的實踐而習得。
根據本公開實施例的第一個方面,提出一種數據分箱處理方法,該方法包括:獲取待處理數據及其目標分箱方式和預設分箱數;若所述待處理數據的數據量大于等于預設閾值,則將所述待處理數據隨機分配至N個節點,N為大于1的正整數;根據所述預設分箱數并利用所述目標分箱方式對所述N個節點上的待處理數據進行處理,以確定所述待處理數據的目標分位點;根據所述目標分位點對所述待處理數據進行分箱操作以獲得分箱結果。
在本公開的一些示例性實施例中,根據所述預設分箱數并利用所述目標分箱方式對所述N個節點上的待處理數據進行處理,以確定所述待處理數據的目標分位點,包括:若所述目標分箱方式為第一分箱方式,則確定所述待處理數據的第一候選切分點;根據所述第一候選切分點將所述待處理數據有序分配到所述N個節點上;分別對有序分配后的各節點上的待處理數據進行排序,以獲得各個節點中的第一排序數據;根據所述各個節點中的第一排序數據獲得所述待處理數據的全局KS;根據所述待處理數據的全局KS確定所述目標分位點。
在本公開的一些示例性實施例中,確定所述待處理數據的第一候選切分點,包括:分別對各節點上的待處理數據排序,以獲得各個節點中的第二排序數據;根據所述節點的個數N分別對各第二排序數據進行等頻劃分,以獲得各個節點上的第一預切分點;根據所述第一預切分點確定所述第一候選切分點。
在本公開的一些示例性實施例中,根據所述待處理數據的全局KS確定所述目標分位點,包括:根據所述待處理數據的全局KS在所述N個節點上的第一排序數據中的確定第二候選切分點;根據所述預設分箱數在所述第二候選切分點中確定所述目標分位點。
在本公開的一些示例性實施例中,根據所述待處理數據的全局KS在所述N個節點上的第一排序數據中確定第二候選切分點,包括:在所述全局 KS中確定一個最大KS,將其對應的待處理數據作為所述第二候選切分點;若所述第二候選切分點左側和右側的待處理數據的數據量大于預設數據量,則在所述第二候選切分點的左側和右側分別確定一個最大KS對應的待處理數據,以作為所述第二候選切分點。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于同盾控股有限公司,未經同盾控股有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910504964.2/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:數據共享方法、裝置及存儲介質
- 下一篇:區塊鏈上調研數據的快速獲取方法和設備
- 數據顯示系統、數據中繼設備、數據中繼方法、數據系統、接收設備和數據讀取方法
- 數據記錄方法、數據記錄裝置、數據記錄媒體、數據重播方法和數據重播裝置
- 數據發送方法、數據發送系統、數據發送裝置以及數據結構
- 數據顯示系統、數據中繼設備、數據中繼方法及數據系統
- 數據嵌入裝置、數據嵌入方法、數據提取裝置及數據提取方法
- 數據管理裝置、數據編輯裝置、數據閱覽裝置、數據管理方法、數據編輯方法以及數據閱覽方法
- 數據發送和數據接收設備、數據發送和數據接收方法
- 數據發送裝置、數據接收裝置、數據收發系統、數據發送方法、數據接收方法和數據收發方法
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置





