[發(fā)明專利]一種數(shù)據(jù)處理方法、裝置、設(shè)備和存儲介質(zhì)有效
| 申請?zhí)枺?/td> | 201911249077.1 | 申請日: | 2019-12-09 |
| 公開(公告)號: | CN110889462B | 公開(公告)日: | 2023-05-02 |
| 發(fā)明(設(shè)計)人: | 黃健;高雅 | 申請(專利權(quán))人: | 秒針信息技術(shù)有限公司 |
| 主分類號: | G06F18/214 | 分類號: | G06F18/214;G06F18/21 |
| 代理公司: | 北京超成律師事務(wù)所 11646 | 代理人: | 孔默 |
| 地址: | 100000 北京市朝陽*** | 國省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 數(shù)據(jù)處理 方法 裝置 設(shè)備 存儲 介質(zhì) | ||
本申請實施例提供一種數(shù)據(jù)處理方法、裝置、設(shè)備和存儲介質(zhì),所述方法包括:獲取待處理數(shù)據(jù)的多個特征信息;根據(jù)所述特征信息,計算所述待處理數(shù)據(jù)中每個原始樣本的影響因子;根據(jù)所述影響因子,刪掉所述待處理數(shù)據(jù)中預(yù)設(shè)數(shù)量的目標(biāo)數(shù)據(jù)后,生成樣本數(shù)據(jù)。本申請實現(xiàn)了對偏差數(shù)據(jù)進(jìn)行采樣,得到符合實際數(shù)據(jù)分布的樣本數(shù)據(jù)。
技術(shù)領(lǐng)域
本申請涉及數(shù)據(jù)處理技術(shù)領(lǐng)域,具體而言,涉及一種數(shù)據(jù)處理方法、裝置、設(shè)備和存儲介質(zhì)。
背景技術(shù)
在數(shù)據(jù)采集過程中,不同來源數(shù)據(jù)的數(shù)量和特征都不相同,當(dāng)某一特征的采集數(shù)據(jù)量占比遠(yuǎn)高于其實際占比時,就會出現(xiàn)數(shù)據(jù)偏斜的問題,不能反映真實的情況。以調(diào)查問卷為例,比如來源A的調(diào)查問卷所能接觸到的人群只能覆蓋到青少年,并且來源A的調(diào)查問卷的數(shù)量占比很高,此時整批調(diào)查問卷就會出現(xiàn)數(shù)據(jù)偏斜的問題,它的趨勢并不能反映真實的情況,而會更傾向于青少年人群的趨勢。因此需要采取抽樣的方式對所有采集到的數(shù)據(jù)進(jìn)行處理,使數(shù)據(jù)符合真實的分布。
常用的抽樣方法有分層抽樣、隨機抽樣、整群抽樣等。但當(dāng)數(shù)據(jù)限制條件較多,即采集數(shù)據(jù)存在多個造成數(shù)據(jù)偏斜的特征時,上述抽樣方法無法得到一個同時滿足所有限制條件的樣本。
發(fā)明內(nèi)容
本申請實施例的目的在于提供一種數(shù)據(jù)處理方法、裝置、設(shè)備和存儲介質(zhì),用以實現(xiàn)對偏差數(shù)據(jù)進(jìn)行采樣,得到符合實際數(shù)據(jù)分布的樣本數(shù)據(jù)。
本申請實施例第一方面提供了一種數(shù)據(jù)處理方法,包括:獲取待處理數(shù)據(jù)的多個特征信息;根據(jù)所述特征信息,計算所述待處理數(shù)據(jù)中每個原始樣本的影響因子;根據(jù)所述影響因子,刪掉所述待處理數(shù)據(jù)中預(yù)設(shè)數(shù)量的目標(biāo)數(shù)據(jù)后,生成樣本數(shù)據(jù)。
于一實施例中,所述獲取待處理數(shù)據(jù)的多個特征信息,包括:按照預(yù)設(shè)規(guī)則對所述待處理數(shù)據(jù)進(jìn)行特征分析,得到多個所述特征信息;根據(jù)多個所述特征信息,對所述待處理數(shù)據(jù)中的每個原始樣本逐一進(jìn)行特征編碼。
于一實施例中,所述根據(jù)所述特征信息,計算所述待處理數(shù)據(jù)中每個原始樣本的影響因子,包括:計算每個所述特征信息對應(yīng)的數(shù)據(jù)量在所述待處理數(shù)據(jù)中的第一占比;獲取每個所述特征信息對應(yīng)的數(shù)據(jù)量在預(yù)設(shè)場景中的第二占比;計算所述第一占比與所述第二占比之間的差值;根據(jù)所述差值計算所述待處理數(shù)據(jù)中每個原始樣本的影響因子。
于一實施例中,采用以下公式計算所述影響因子:
其中,a表示所述原始樣本的所述影響因子,di表示第i個所述特征信息對應(yīng)的所述第一占比與所述第二占比之間的差值,xi表示所述原始樣本第i個所述特征信息對應(yīng)的特征編碼,n表示所述特征信息的數(shù)量,n為正整數(shù)。
于一實施例中,所述根據(jù)所述影響因子,刪掉所述待處理數(shù)據(jù)中預(yù)設(shè)數(shù)量的目標(biāo)數(shù)據(jù)后,生成樣本數(shù)據(jù),包括:將所述待處理數(shù)據(jù)按照所述影響因子從大到小排序;從大到小依次刪掉所述待處理數(shù)據(jù)中預(yù)設(shè)數(shù)量的目標(biāo)數(shù)據(jù)后,生成樣本數(shù)據(jù)。
本申請實施例第二方面提供了一種數(shù)據(jù)處理方法,包括:獲取待處理數(shù)據(jù)的總數(shù)據(jù)量和預(yù)設(shè)采樣數(shù)據(jù)量;根據(jù)所述總數(shù)據(jù)量和所述預(yù)設(shè)采樣數(shù)據(jù)量,分別生成多個迭代次數(shù)和多個預(yù)設(shè)數(shù)量,所述預(yù)設(shè)數(shù)量為每次迭代計算中,從所述待處理數(shù)據(jù)中刪掉的目標(biāo)數(shù)據(jù)的數(shù)量;根據(jù)每個所述迭代次數(shù)和每個所述預(yù)設(shè)數(shù)量,采用如本申請實施例第一方面及其任一實施例的方法,對所述待處理數(shù)據(jù)進(jìn)行迭代計算,得到多個樣本數(shù)據(jù)集;根據(jù)多個所述樣本數(shù)據(jù)集,生成數(shù)據(jù)采樣結(jié)果。
本申請實施例第三方面提供了一種數(shù)據(jù)處理裝置,包括:第一獲取模塊,用于獲取待處理數(shù)據(jù)的多個特征信息;計算模塊,用于根據(jù)所述特征信息,計算所述待處理數(shù)據(jù)中每個原始樣本的影響因子;第一生成模塊,用于根據(jù)所述影響因子,刪掉所述待處理數(shù)據(jù)中預(yù)設(shè)數(shù)量的目標(biāo)數(shù)據(jù)后,生成樣本數(shù)據(jù)。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于秒針信息技術(shù)有限公司,未經(jīng)秒針信息技術(shù)有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201911249077.1/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 數(shù)據(jù)處理設(shè)備,數(shù)據(jù)處理方法,和數(shù)據(jù)處理程序
- 數(shù)據(jù)處理電路、數(shù)據(jù)處理裝置、數(shù)據(jù)處理方法、數(shù)據(jù)處理控制方法
- 數(shù)據(jù)處理設(shè)備、數(shù)據(jù)處理方法和數(shù)據(jù)處理程序
- 數(shù)據(jù)處理裝置、數(shù)據(jù)處理方法及數(shù)據(jù)處理程序
- 數(shù)據(jù)處理裝置、數(shù)據(jù)處理方法及計算機可讀取的記錄介質(zhì)
- 數(shù)據(jù)處理裝置、數(shù)據(jù)處理方法和數(shù)據(jù)處理程序
- 數(shù)據(jù)處理裝置、數(shù)據(jù)處理方法和數(shù)據(jù)處理程序
- 數(shù)據(jù)處理裝置、數(shù)據(jù)處理方法以及數(shù)據(jù)處理程序
- 數(shù)據(jù)處理裝置、數(shù)據(jù)處理方法以及數(shù)據(jù)處理程序
- 數(shù)據(jù)處理裝置、數(shù)據(jù)處理方法和數(shù)據(jù)處理程序
- 傳感設(shè)備、檢索設(shè)備和中繼設(shè)備
- 簽名設(shè)備、檢驗設(shè)備、驗證設(shè)備、加密設(shè)備及解密設(shè)備
- 色彩調(diào)整設(shè)備、顯示設(shè)備、打印設(shè)備、圖像處理設(shè)備
- 驅(qū)動設(shè)備、定影設(shè)備和成像設(shè)備
- 發(fā)送設(shè)備、中繼設(shè)備和接收設(shè)備
- 定點設(shè)備、接口設(shè)備和顯示設(shè)備
- 傳輸設(shè)備、DP源設(shè)備、接收設(shè)備以及DP接受設(shè)備
- 設(shè)備綁定方法、設(shè)備、終端設(shè)備以及網(wǎng)絡(luò)側(cè)設(shè)備
- 設(shè)備、主設(shè)備及從設(shè)備
- 設(shè)備向設(shè)備轉(zhuǎn)發(fā)





