[發(fā)明專(zhuān)利]一種數(shù)據(jù)質(zhì)量檢測(cè)的抽樣方法、系統(tǒng)及存儲(chǔ)介質(zhì)有效
| 申請(qǐng)?zhí)枺?/td> | 202010197296.6 | 申請(qǐng)日: | 2020-03-19 |
| 公開(kāi)(公告)號(hào): | CN111427875B | 公開(kāi)(公告)日: | 2023-09-12 |
| 發(fā)明(設(shè)計(jì))人: | 趙淦森;趙淑嫻;列海權(quán);徐崗;紀(jì)求華;陳冰川;莊序填;蔡斯凱;林成創(chuàng);鄧水鳳 | 申請(qǐng)(專(zhuān)利權(quán))人: | 廣東蔚海數(shù)問(wèn)大數(shù)據(jù)科技有限公司 |
| 主分類(lèi)號(hào): | G06F16/215 | 分類(lèi)號(hào): | G06F16/215;G06F16/2458 |
| 代理公司: | 廣州嘉權(quán)專(zhuān)利商標(biāo)事務(wù)所有限公司 44205 | 代理人: | 何文聰 |
| 地址: | 510000 廣東省廣*** | 國(guó)省代碼: | 廣東;44 |
| 權(quán)利要求書(shū): | 查看更多 | 說(shuō)明書(shū): | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 數(shù)據(jù) 質(zhì)量 檢測(cè) 抽樣 方法 系統(tǒng) 存儲(chǔ) 介質(zhì) | ||
本發(fā)明公開(kāi)了一種數(shù)據(jù)質(zhì)量檢測(cè)的抽樣方法。該方法包括以下步驟:獲取原始數(shù)據(jù)并生成資源數(shù)據(jù)集;獲取抽樣配置信息,根據(jù)所述抽樣配置信息設(shè)置樣本容量和循環(huán)次數(shù)上限;根據(jù)所述樣本容量和循環(huán)次數(shù)上限從所述資源數(shù)據(jù)集中抽取數(shù)據(jù);將抽取的數(shù)據(jù)匯總形成樣本集;所述抽樣配置信息包括抽樣密度、樣本容量最大值和時(shí)間范圍。本技術(shù)方案在獲取原始數(shù)據(jù)并集成資源數(shù)據(jù)集,再通過(guò)抽樣密度、樣本容量上限、時(shí)間范圍等多種維度的配置信息確定樣本容量和循環(huán)次數(shù)上限,通過(guò)靈活地調(diào)整配置信息滿足隨機(jī)或全采樣不同密度的抽樣需求,對(duì)應(yīng)地完成抽樣并得到樣本集,降低了對(duì)計(jì)算資源的調(diào)度和占用,可廣泛應(yīng)用于數(shù)據(jù)處理領(lǐng)域。
技術(shù)領(lǐng)域
本發(fā)明涉及數(shù)據(jù)處理領(lǐng)域,尤其是一種數(shù)據(jù)質(zhì)量檢測(cè)的抽樣方法、系統(tǒng)及存儲(chǔ)介質(zhì)。
背景技術(shù)
伴隨著信息技術(shù)的飛速發(fā)展,無(wú)論是生活還是工作中,數(shù)據(jù)、信息均呈現(xiàn)爆炸性地增長(zhǎng),這也就導(dǎo)致了網(wǎng)絡(luò)技術(shù)和數(shù)據(jù)處理等領(lǐng)域的蓬勃發(fā)展。具體到數(shù)據(jù)處理領(lǐng)域,各個(gè)行業(yè)都通過(guò)各種方式或渠道累積了海量數(shù)據(jù),而這些數(shù)據(jù)中都潛藏著無(wú)限的商業(yè)價(jià)值等待被發(fā)掘。而數(shù)據(jù)抽樣則是作為數(shù)據(jù)(預(yù))處理中的關(guān)鍵一環(huán),在收集數(shù)據(jù)過(guò)程中,在可支配資源有限的情況下,并不能一概而論地采取普查的方式獲取總體中所有樣本的數(shù)據(jù)信息,而需要以各類(lèi)抽樣方法抽取其中若干代表性樣本來(lái)進(jìn)行后續(xù)的分析操作。
但目前的現(xiàn)有技術(shù)更主要的還是從各自業(yè)務(wù)系統(tǒng)的各個(gè)數(shù)據(jù)倉(cāng)庫(kù)中通過(guò)遍歷(普查)的方式采集數(shù)據(jù),然后再對(duì)采集的數(shù)據(jù)進(jìn)行全量的質(zhì)量檢測(cè),在面對(duì)龐大的數(shù)據(jù)量時(shí),不僅無(wú)法保證數(shù)據(jù)采集的效率,同時(shí)也需耗費(fèi)較大的計(jì)算資源。
發(fā)明內(nèi)容
本發(fā)明的目的在于至少一定程度上解決現(xiàn)有技術(shù)中存在的技術(shù)問(wèn)題之一,為此,本發(fā)明實(shí)施例的一個(gè)目的在于提供一種高效、靈活且占用計(jì)算資源較少的數(shù)據(jù)質(zhì)量檢測(cè)的抽樣方法,以及可用于實(shí)施其方法的系統(tǒng)和存取該方法邏輯功能的存儲(chǔ)介質(zhì)。
為了達(dá)到上述技術(shù)目的,本發(fā)明實(shí)施例所采取的技術(shù)方案包括:
第一方面,本發(fā)明實(shí)施例提供了一種數(shù)據(jù)質(zhì)量檢測(cè)的抽樣方法,包括以下步驟:
獲取原始數(shù)據(jù)并生成資源數(shù)據(jù)集;
獲取抽樣配置信息,根據(jù)抽樣配置信息設(shè)置樣本容量和循環(huán)次數(shù)上限;
根據(jù)樣本容量和循環(huán)次數(shù)上限從資源數(shù)據(jù)集中抽取數(shù)據(jù);
將抽取的數(shù)據(jù)匯總形成樣本集;
其中,抽樣配置信息包括抽樣密度、樣本容量最大值和時(shí)間范圍。
另外,根據(jù)本發(fā)明上述實(shí)施例的一種數(shù)據(jù)質(zhì)量檢測(cè)的抽樣方法,還可以具有以下附加的技術(shù)特征:
進(jìn)一步的,本發(fā)明實(shí)施例的方法中,獲取原始數(shù)據(jù)并生成資源數(shù)據(jù)集這一步驟,其具體包括:匯總原始數(shù)據(jù);根據(jù)時(shí)間范圍從匯總后的原始數(shù)據(jù)中篩選得到資源數(shù)據(jù)集。
進(jìn)一步的,本發(fā)明實(shí)施例的方法中,獲取原始數(shù)據(jù)并生成資源數(shù)據(jù)集這一步驟,還包括:對(duì)原始數(shù)據(jù)進(jìn)行去噪和差值填補(bǔ);將完成去噪和差值填補(bǔ)的原始數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化。
進(jìn)一步的,本發(fā)明實(shí)施例的方法中,根據(jù)樣本容量和循環(huán)次數(shù)上限從資源數(shù)據(jù)集中抽取數(shù)據(jù)這一步驟,其具體包括:當(dāng)樣本集的長(zhǎng)度不大于預(yù)設(shè)樣本容量,繼續(xù)從資源數(shù)據(jù)集中順序讀取數(shù)據(jù)生成樣本集;當(dāng)樣本集的長(zhǎng)度大于預(yù)設(shè)樣本容量,從樣本集中移除數(shù)據(jù)。
進(jìn)一步的,本發(fā)明實(shí)施例的方法中,根據(jù)樣本容量和循環(huán)次數(shù)上限從資源數(shù)據(jù)集中抽取數(shù)據(jù)這一步驟,還包括:當(dāng)抽樣的當(dāng)前循環(huán)次數(shù)小于循環(huán)次數(shù)上限,繼續(xù)從資源數(shù)據(jù)集中順序讀取數(shù)據(jù)生成樣本集;當(dāng)抽樣的當(dāng)前循環(huán)次數(shù)不小于循環(huán)次數(shù)上限,結(jié)束抽樣。
進(jìn)一步的,本發(fā)明實(shí)施例的方法中,根據(jù)抽樣信息設(shè)置樣本容量這一步驟,其具體包括:根據(jù)資源數(shù)據(jù)集的容量與抽樣密度得到臨時(shí)變量;當(dāng)臨時(shí)變量大于樣本容量,保持原樣本容量不變;當(dāng)臨時(shí)變量不大于樣本容量,將臨時(shí)變量設(shè)置為新的樣本容量。
該專(zhuān)利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專(zhuān)利權(quán)人授權(quán)。該專(zhuān)利全部權(quán)利屬于廣東蔚海數(shù)問(wèn)大數(shù)據(jù)科技有限公司,未經(jīng)廣東蔚海數(shù)問(wèn)大數(shù)據(jù)科技有限公司許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買(mǎi)此專(zhuān)利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010197296.6/2.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專(zhuān)利網(wǎng)。
- 數(shù)據(jù)顯示系統(tǒng)、數(shù)據(jù)中繼設(shè)備、數(shù)據(jù)中繼方法、數(shù)據(jù)系統(tǒng)、接收設(shè)備和數(shù)據(jù)讀取方法
- 數(shù)據(jù)記錄方法、數(shù)據(jù)記錄裝置、數(shù)據(jù)記錄媒體、數(shù)據(jù)重播方法和數(shù)據(jù)重播裝置
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)發(fā)送系統(tǒng)、數(shù)據(jù)發(fā)送裝置以及數(shù)據(jù)結(jié)構(gòu)
- 數(shù)據(jù)顯示系統(tǒng)、數(shù)據(jù)中繼設(shè)備、數(shù)據(jù)中繼方法及數(shù)據(jù)系統(tǒng)
- 數(shù)據(jù)嵌入裝置、數(shù)據(jù)嵌入方法、數(shù)據(jù)提取裝置及數(shù)據(jù)提取方法
- 數(shù)據(jù)管理裝置、數(shù)據(jù)編輯裝置、數(shù)據(jù)閱覽裝置、數(shù)據(jù)管理方法、數(shù)據(jù)編輯方法以及數(shù)據(jù)閱覽方法
- 數(shù)據(jù)發(fā)送和數(shù)據(jù)接收設(shè)備、數(shù)據(jù)發(fā)送和數(shù)據(jù)接收方法
- 數(shù)據(jù)發(fā)送裝置、數(shù)據(jù)接收裝置、數(shù)據(jù)收發(fā)系統(tǒng)、數(shù)據(jù)發(fā)送方法、數(shù)據(jù)接收方法和數(shù)據(jù)收發(fā)方法
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)再現(xiàn)方法、數(shù)據(jù)發(fā)送裝置及數(shù)據(jù)再現(xiàn)裝置
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)再現(xiàn)方法、數(shù)據(jù)發(fā)送裝置及數(shù)據(jù)再現(xiàn)裝置
- 檢測(cè)裝置、檢測(cè)方法和檢測(cè)組件
- 檢測(cè)方法、檢測(cè)裝置和檢測(cè)系統(tǒng)
- 檢測(cè)裝置、檢測(cè)方法以及記錄介質(zhì)
- 檢測(cè)設(shè)備、檢測(cè)系統(tǒng)和檢測(cè)方法
- 檢測(cè)芯片、檢測(cè)設(shè)備、檢測(cè)系統(tǒng)和檢測(cè)方法
- 檢測(cè)裝置、檢測(cè)設(shè)備及檢測(cè)方法
- 檢測(cè)芯片、檢測(cè)設(shè)備、檢測(cè)系統(tǒng)
- 檢測(cè)組件、檢測(cè)裝置以及檢測(cè)系統(tǒng)
- 檢測(cè)裝置、檢測(cè)方法及檢測(cè)程序
- 檢測(cè)電路、檢測(cè)裝置及檢測(cè)系統(tǒng)





