[發(fā)明專(zhuān)利]針對(duì)表格數(shù)據(jù)的仿真數(shù)據(jù)生成方法、裝置及電子設(shè)備有效
| 申請(qǐng)?zhí)枺?/td> | 202211029674.5 | 申請(qǐng)日: | 2022-08-26 |
| 公開(kāi)(公告)號(hào): | CN115455668B | 公開(kāi)(公告)日: | 2023-05-30 |
| 發(fā)明(設(shè)計(jì))人: | 付希明;劉川意;韓培義;莊榮飛 | 申請(qǐng)(專(zhuān)利權(quán))人: | 哈爾濱工業(yè)大學(xué)(深圳) |
| 主分類(lèi)號(hào): | G06F30/20 | 分類(lèi)號(hào): | G06F30/20;G06F40/18 |
| 代理公司: | 深圳市添源創(chuàng)鑫知識(shí)產(chǎn)權(quán)代理有限公司 44855 | 代理人: | 覃迎峰 |
| 地址: | 518000 廣東省深圳市南*** | 國(guó)省代碼: | 廣東;44 |
| 權(quán)利要求書(shū): | 查看更多 | 說(shuō)明書(shū): | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 針對(duì) 表格 數(shù)據(jù) 仿真 生成 方法 裝置 電子設(shè)備 | ||
本發(fā)明公開(kāi)了一種針對(duì)表格數(shù)據(jù)的仿真數(shù)據(jù)生成方法、裝置及電子設(shè)備,所述方法包括:獲取累計(jì)分布表及逆累計(jì)分布表;根據(jù)累計(jì)分布表對(duì)原始數(shù)據(jù)做變換,獲取變換后每一列均值和列協(xié)方差矩陣;根據(jù)獲取每一列均值和列協(xié)方差矩陣生成聯(lián)合高斯分布數(shù)據(jù),最后通過(guò)查逆累計(jì)分布表仿真數(shù)據(jù)生成。本發(fā)明針對(duì)表格數(shù)據(jù)的仿真數(shù)據(jù)生成,適用于集中場(chǎng)景和分布式場(chǎng)景,生成仿真數(shù)據(jù)技術(shù)效率高,所需時(shí)間短,同時(shí),在分布式情況下的生成數(shù)據(jù)質(zhì)量高,尤其是聯(lián)邦情況和非平衡情況下的仿真數(shù)據(jù)質(zhì)量仍然能夠滿足下游任務(wù)和數(shù)據(jù)探索的需求。
技術(shù)領(lǐng)域
本申請(qǐng)涉及互聯(lián)網(wǎng)技術(shù)領(lǐng)域,特別是涉及一種針對(duì)表格數(shù)據(jù)的仿真數(shù)據(jù)生成方法、裝置及電子設(shè)備。
背景技術(shù)
隨著數(shù)據(jù)生產(chǎn)要素的提出和不斷深化,數(shù)據(jù)價(jià)值的重要性得到廣泛認(rèn)可,例如藥廠可以根據(jù)醫(yī)院的醫(yī)療數(shù)據(jù)來(lái)輔助醫(yī)藥制造。一方面,很多數(shù)據(jù)具有高度隱私性,如病人醫(yī)療數(shù)據(jù)涉及到病人隱私,無(wú)法直接對(duì)外開(kāi)放。另一方面,我們國(guó)家制定了個(gè)人信息保護(hù)法,對(duì)個(gè)人數(shù)據(jù)使用有嚴(yán)格的管理規(guī)定。這使得數(shù)據(jù)的開(kāi)放比較困難,仿真數(shù)據(jù)為數(shù)據(jù)開(kāi)放提供了有效的手段。
仿真數(shù)據(jù)生成主要有兩種應(yīng)用:一種是數(shù)據(jù)挖掘,將仿真數(shù)據(jù)開(kāi)放給用戶,用戶使用仿真數(shù)據(jù)進(jìn)行數(shù)據(jù)挖掘等下游任務(wù)。由于仿真數(shù)據(jù)和真實(shí)數(shù)據(jù)進(jìn)行數(shù)據(jù)探索的性能存在一定的差異,因此主要應(yīng)用于對(duì)數(shù)據(jù)挖掘要求不是特別高的場(chǎng)景;另一種是數(shù)據(jù)探索和調(diào)試:在該應(yīng)用中,仍然希望對(duì)真實(shí)數(shù)據(jù)進(jìn)行數(shù)據(jù)挖掘,但是不希望用戶直接接觸到真實(shí)數(shù)據(jù)。由于接觸不到真實(shí)數(shù)據(jù),前期的數(shù)據(jù)探索和程序調(diào)試就無(wú)法進(jìn)行。采用仿真數(shù)據(jù)進(jìn)行數(shù)據(jù)探索和程序調(diào)試,將調(diào)試后的程序遷移到真實(shí)數(shù)據(jù)上運(yùn)行,然后將結(jié)果導(dǎo)出。在這兩種應(yīng)用中,都期望生成的仿真數(shù)據(jù)在數(shù)據(jù)挖掘中的性能與真實(shí)數(shù)據(jù)接近。
數(shù)據(jù)生成場(chǎng)景主要分為兩種:第一種是集中場(chǎng)景,即所有的原始數(shù)據(jù)集中在一個(gè)節(jié)點(diǎn)上;第二種是分布式場(chǎng)景,又叫聯(lián)邦場(chǎng)景,即原始數(shù)據(jù)分散在多個(gè)節(jié)點(diǎn)上。在分布式場(chǎng)景中有兩種情況,一種是各個(gè)節(jié)點(diǎn)的數(shù)據(jù)量相差不大,稱(chēng)作平衡情況;第二種是各個(gè)節(jié)點(diǎn)的數(shù)據(jù)量相差較大,稱(chēng)作非平衡情況。目前在仿真數(shù)據(jù)生成方面,有兩種相關(guān)的技術(shù):(1)基于生成對(duì)抗網(wǎng)絡(luò)(GAN)的方法,即通過(guò)機(jī)器學(xué)習(xí)技術(shù)對(duì)真實(shí)數(shù)據(jù)進(jìn)行模擬,從而生成仿真數(shù)據(jù)。該方法可以應(yīng)用在集中場(chǎng)景下和聯(lián)邦場(chǎng)景下;(2)Gaussian?Copula方法,通過(guò)數(shù)據(jù)擬合方法對(duì)表格數(shù)據(jù)的每一列進(jìn)行擬合,得到其累計(jì)分布函數(shù)。以然后計(jì)算每一列的均值和列之間的協(xié)方差。通過(guò)均值和協(xié)方差生成高斯分布的數(shù)據(jù),然后通過(guò)累積分布函數(shù)逆變換得到仿真數(shù)據(jù)。上述兩種技術(shù)生成仿真數(shù)據(jù)的效率都較低,生成時(shí)間較長(zhǎng)。尤其是在高維數(shù)據(jù)的生成中需要較長(zhǎng)的時(shí)間。如生成一個(gè)1200行、18000列的表格數(shù)據(jù),Gaussian?Copula方法大約需要12小時(shí),基于GAN的方法生成仿真數(shù)據(jù)大約需要200小時(shí);上述兩種技術(shù)在分布式情況下的生成數(shù)據(jù)質(zhì)量較差,尤其是聯(lián)邦情況和非平衡情況下的仿真數(shù)據(jù)質(zhì)量較差,難以滿足下游任務(wù)和數(shù)據(jù)探索的需求。
發(fā)明內(nèi)容
本發(fā)明針對(duì)上述問(wèn)題,提供了一種針對(duì)表格數(shù)據(jù)的仿真數(shù)據(jù)生成方法、裝置及電子設(shè)備,針對(duì)表格數(shù)據(jù)的仿真數(shù)據(jù)生成,適用于集中場(chǎng)景和分布式場(chǎng)景,用于解決現(xiàn)有的生成仿真數(shù)據(jù)技術(shù)效率低,生成時(shí)間較長(zhǎng)以及在分布式情況下的生成數(shù)據(jù)質(zhì)量差的問(wèn)題。
本發(fā)明的第一方面,一種針對(duì)表格數(shù)據(jù)的仿真數(shù)據(jù)生成方法,在集中場(chǎng)景下,針對(duì)
獲取累計(jì)分布表及逆累計(jì)分布表:將每一列數(shù)據(jù)進(jìn)行區(qū)間劃分,統(tǒng)計(jì)每一個(gè)區(qū)間內(nèi)的數(shù)據(jù)的個(gè)數(shù),計(jì)算得到每個(gè)區(qū)間
該專(zhuān)利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專(zhuān)利權(quán)人授權(quán)。該專(zhuān)利全部權(quán)利屬于哈爾濱工業(yè)大學(xué)(深圳),未經(jīng)哈爾濱工業(yè)大學(xué)(深圳)許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買(mǎi)此專(zhuān)利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202211029674.5/2.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專(zhuān)利網(wǎng)。
- 版式表格的結(jié)構(gòu)處理方法和系統(tǒng)
- 多欄多列表格的展示方法
- 一種在移動(dòng)端展示長(zhǎng)表格的交互方法及系統(tǒng)裝置
- 一種在移動(dòng)端縱向展示長(zhǎng)表格的交互方法及系統(tǒng)裝置
- 一種在移動(dòng)端橫向展示長(zhǎng)表格的交互方法及系統(tǒng)裝置
- 表格圖像解析方法、裝置、計(jì)算機(jī)設(shè)備及存儲(chǔ)介質(zhì)
- 一種針對(duì)PDF文檔表格提取優(yōu)化方法及系統(tǒng)
- 一種自動(dòng)生成表格數(shù)據(jù)的方法及裝置
- 一種批量合并表格內(nèi)容的方法、系統(tǒng)、裝置和存儲(chǔ)介質(zhì)
- 表格渲染顯示方法、裝置、計(jì)算機(jī)設(shè)備和存儲(chǔ)介質(zhì)
- 數(shù)據(jù)顯示系統(tǒng)、數(shù)據(jù)中繼設(shè)備、數(shù)據(jù)中繼方法、數(shù)據(jù)系統(tǒng)、接收設(shè)備和數(shù)據(jù)讀取方法
- 數(shù)據(jù)記錄方法、數(shù)據(jù)記錄裝置、數(shù)據(jù)記錄媒體、數(shù)據(jù)重播方法和數(shù)據(jù)重播裝置
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)發(fā)送系統(tǒng)、數(shù)據(jù)發(fā)送裝置以及數(shù)據(jù)結(jié)構(gòu)
- 數(shù)據(jù)顯示系統(tǒng)、數(shù)據(jù)中繼設(shè)備、數(shù)據(jù)中繼方法及數(shù)據(jù)系統(tǒng)
- 數(shù)據(jù)嵌入裝置、數(shù)據(jù)嵌入方法、數(shù)據(jù)提取裝置及數(shù)據(jù)提取方法
- 數(shù)據(jù)管理裝置、數(shù)據(jù)編輯裝置、數(shù)據(jù)閱覽裝置、數(shù)據(jù)管理方法、數(shù)據(jù)編輯方法以及數(shù)據(jù)閱覽方法
- 數(shù)據(jù)發(fā)送和數(shù)據(jù)接收設(shè)備、數(shù)據(jù)發(fā)送和數(shù)據(jù)接收方法
- 數(shù)據(jù)發(fā)送裝置、數(shù)據(jù)接收裝置、數(shù)據(jù)收發(fā)系統(tǒng)、數(shù)據(jù)發(fā)送方法、數(shù)據(jù)接收方法和數(shù)據(jù)收發(fā)方法
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)再現(xiàn)方法、數(shù)據(jù)發(fā)送裝置及數(shù)據(jù)再現(xiàn)裝置
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)再現(xiàn)方法、數(shù)據(jù)發(fā)送裝置及數(shù)據(jù)再現(xiàn)裝置
- 一種針對(duì)紅外成像系統(tǒng)的全數(shù)字仿真系統(tǒng)及其仿真方法
- 支持船舶建造過(guò)程仿真的樹(shù)形目錄結(jié)構(gòu)數(shù)據(jù)及仿真系統(tǒng)
- 一種99A主戰(zhàn)坦克仿真模型
- 作為母乳喂養(yǎng)科普器具的新生兒模型
- 一種多仿真器協(xié)同的仿真方法、仿真主控平臺(tái)和仿真系統(tǒng)
- 為控制器開(kāi)發(fā)提供實(shí)時(shí)仿真的方法以及仿真裝置
- 一種仿真方法及仿真平臺(tái)
- 一種長(zhǎng)嘴仿真魚(yú)餌
- 一種H橋驅(qū)動(dòng)電路的熱仿真模型及熱仿真方法
- 仿真模型的運(yùn)行控制方法、裝置及電子設(shè)備





