[發(fā)明專利]基于生成式對(duì)抗網(wǎng)絡(luò)的關(guān)系型表格數(shù)據(jù)的生成方法及裝置有效
| 申請(qǐng)?zhí)枺?/td> | 202010914927.1 | 申請(qǐng)日: | 2020-09-03 |
| 公開(kāi)(公告)號(hào): | CN111767326B | 公開(kāi)(公告)日: | 2020-11-27 |
| 發(fā)明(設(shè)計(jì))人: | 李國(guó)良;柴成亮;吳國(guó)誠(chéng);杜蜀薇;朱耀宇;張宏達(dá);鄭斌;胡若云;沈百?gòu)?qiáng);李熊;李飛飛;葉翔 | 申請(qǐng)(專利權(quán))人: | 國(guó)網(wǎng)浙江省電力有限公司營(yíng)銷服務(wù)中心;清華大學(xué);國(guó)網(wǎng)浙江省電力有限公司 |
| 主分類號(hào): | G06F16/2458 | 分類號(hào): | G06F16/2458;G06F16/28;G06F16/22;G06K9/62 |
| 代理公司: | 杭州華鼎知識(shí)產(chǎn)權(quán)代理事務(wù)所(普通合伙) 33217 | 代理人: | 魏亮 |
| 地址: | 311121 浙江省杭*** | 國(guó)省代碼: | 浙江;33 |
| 權(quán)利要求書(shū): | 查看更多 | 說(shuō)明書(shū): | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 基于 生成 對(duì)抗 網(wǎng)絡(luò) 關(guān)系 表格 數(shù)據(jù) 方法 裝置 | ||
本申請(qǐng)屬于數(shù)據(jù)生成技術(shù)領(lǐng)域,具體涉及一種基于生成式對(duì)抗網(wǎng)絡(luò)的關(guān)系型表格數(shù)據(jù)的生成方法及裝置。其中的方法包括:獲取包括可分類數(shù)據(jù)、數(shù)字型數(shù)據(jù)、順序型數(shù)據(jù)的原始的關(guān)系型表格數(shù)據(jù);選擇能唯一確定實(shí)體的可分類數(shù)據(jù)以確定相應(yīng)的實(shí)體,將唯一確定實(shí)體的可分類數(shù)據(jù)作為實(shí)體標(biāo)識(shí)屬性;將包含實(shí)體標(biāo)識(shí)屬性的可分類屬性元組作為條件信息,將隨機(jī)噪聲向量作為輸入,通過(guò)預(yù)先訓(xùn)練的數(shù)據(jù)生成模型得到生成的關(guān)系型表格數(shù)據(jù)。本申請(qǐng)中的方法能同時(shí)學(xué)習(xí)離散分布與連續(xù)分布,抓取記錄之間的關(guān)聯(lián);同時(shí)抓取實(shí)體層面多條記錄的潛在趨勢(shì),準(zhǔn)確生成與原數(shù)據(jù)分布近似的假數(shù)據(jù),且數(shù)據(jù)的分布在表格層面擬合真實(shí)數(shù)據(jù)集。
技術(shù)領(lǐng)域
本申請(qǐng)屬于數(shù)據(jù)生成技術(shù)領(lǐng)域,具體涉及一種基于生成式對(duì)抗網(wǎng)絡(luò)的關(guān)系型表格數(shù)據(jù)的生成方法及裝置。
背景技術(shù)
在大數(shù)據(jù)時(shí)代,數(shù)據(jù)表格生成在近似查詢估計(jì),數(shù)據(jù)安全分享,數(shù)據(jù)壓縮,以及滿足隱私保護(hù)的機(jī)器學(xué)習(xí)等領(lǐng)域有著重要應(yīng)用。在數(shù)據(jù)生成領(lǐng)域,現(xiàn)有的模型例如變分編碼器(Variational Auto-encoder)和生成式對(duì)抗網(wǎng)絡(luò)(Generative Adversarial Networks)在圖像生成、文字圖像轉(zhuǎn)化、圖像修復(fù)等領(lǐng)域皆取得了巨大成功。
關(guān)系型數(shù)據(jù)表格生成具有以下需求:判別器難以分辨樣本是來(lái)自于真實(shí)數(shù)據(jù)集還是由生成器生成出的假數(shù)據(jù)。該樣本可以是一條記錄(記錄層面),多條記錄組成的實(shí)體(實(shí)體層面),甚至是表格本身(表格層面)。
利用生成式對(duì)抗網(wǎng)絡(luò)進(jìn)行關(guān)系型數(shù)據(jù)表格生成依舊面臨許多挑戰(zhàn)。
首先,關(guān)系型數(shù)據(jù)表格包含多種數(shù)據(jù)類型,例如可分類數(shù)據(jù)、數(shù)字型數(shù)據(jù)、順序型數(shù)據(jù)等等。這就需要生成模型能夠同時(shí)學(xué)習(xí)離散分布與連續(xù)分布,以及抓取記錄之間的關(guān)聯(lián)。用傳統(tǒng)模型生成可分類數(shù)據(jù)可被視為多分類任務(wù),結(jié)果通常非常不準(zhǔn)確。
其次,關(guān)系型數(shù)據(jù)表格的數(shù)據(jù)分布有時(shí)是復(fù)雜的。傳統(tǒng)生成式對(duì)抗網(wǎng)絡(luò)模型將每條記錄視為一個(gè)樣本,因此只能在記錄層面抓取數(shù)據(jù)分布。然而,實(shí)體層面與表格層面沒(méi)有被有效學(xué)習(xí)。在實(shí)體層面,多條記錄的潛在趨勢(shì)沒(méi)有被有效抓取。在表格層面,樣本(記錄或?qū)嶓w)的分布未擬合真實(shí)數(shù)據(jù)集。
發(fā)明內(nèi)容
鑒于現(xiàn)有技術(shù)的上述缺點(diǎn)、不足,本申請(qǐng)?zhí)峁┮环N基于生成式對(duì)抗網(wǎng)絡(luò)的關(guān)系型表格數(shù)據(jù)的生成方法及裝置。
為達(dá)到上述目的,本申請(qǐng)采用如下技術(shù)方案:
第一方面,本申請(qǐng)實(shí)施例提供一種基于生成式對(duì)抗網(wǎng)絡(luò)的關(guān)系型表格數(shù)據(jù)的生成方法,該方法包括:
S10、獲取原始的關(guān)系型表格數(shù)據(jù),所述關(guān)系型表格數(shù)據(jù)包括可分類數(shù)據(jù)、數(shù)字型數(shù)據(jù)、順序型數(shù)據(jù);
S20、從原始的關(guān)系型表格數(shù)據(jù)中選擇能唯一確定實(shí)體的可分類數(shù)據(jù)以確定相應(yīng)的實(shí)體,將唯一確定實(shí)體的可分類數(shù)據(jù)作為實(shí)體標(biāo)識(shí)屬性;
S30、將包含所述實(shí)體標(biāo)識(shí)屬性的可分類屬性元組作為條件信息,將隨機(jī)噪聲向量作為輸入,通過(guò)預(yù)先訓(xùn)練的數(shù)據(jù)生成模型得到生成的關(guān)系型表格數(shù)據(jù);
其中,數(shù)據(jù)生成模型是通過(guò)訓(xùn)練預(yù)先構(gòu)建的條件生成式對(duì)抗網(wǎng)絡(luò)而得到的訓(xùn)練后的生成器,所述條件生成式對(duì)抗網(wǎng)絡(luò)由判別器與生成器組成;在訓(xùn)練過(guò)程中,將關(guān)系型數(shù)據(jù)表格中的實(shí)體數(shù)據(jù)作為訓(xùn)練樣本,將實(shí)體的可分類屬性元組作為判別器與生成器的條件信息,對(duì)所述條件生成式對(duì)抗網(wǎng)絡(luò)進(jìn)行訓(xùn)練。
可選地,當(dāng)有多條記錄屬于同一實(shí)體、并且這些記錄可以被同一序數(shù)型屬性線性排列時(shí),S30中將關(guān)系型數(shù)據(jù)表格中的實(shí)體數(shù)據(jù)作為訓(xùn)練樣本,包括:
基于序數(shù)型屬性將屬于同一實(shí)體的多條記錄的數(shù)字型數(shù)據(jù)組合為二維數(shù)字型矩陣,
對(duì)所述二維數(shù)字型矩陣進(jìn)行數(shù)據(jù)填充,得到實(shí)體數(shù)據(jù)矩陣,
將所述實(shí)體數(shù)據(jù)矩陣作為所述訓(xùn)練樣本中的數(shù)字型數(shù)據(jù)表示。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于國(guó)網(wǎng)浙江省電力有限公司營(yíng)銷服務(wù)中心;清華大學(xué);國(guó)網(wǎng)浙江省電力有限公司,未經(jīng)國(guó)網(wǎng)浙江省電力有限公司營(yíng)銷服務(wù)中心;清華大學(xué);國(guó)網(wǎng)浙江省電力有限公司許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010914927.1/2.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專利網(wǎng)。
- 農(nóng)業(yè)信息對(duì)抗資源目標(biāo)規(guī)劃最優(yōu)分配方法
- 農(nóng)業(yè)信息對(duì)抗資源模糊規(guī)劃最優(yōu)分配方法
- 農(nóng)業(yè)信息對(duì)抗資源線性規(guī)劃最優(yōu)分配方法
- 基于聚類數(shù)據(jù)挖掘的對(duì)抗行為搜索算法
- 面向多種對(duì)抗圖片攻擊的協(xié)同免疫防御方法
- 一種自適應(yīng)對(duì)抗強(qiáng)度的對(duì)抗訓(xùn)練方法
- 對(duì)抗攻擊模型的訓(xùn)練方法及裝置
- 對(duì)抗樣本的生成方法和裝置
- 多樣本對(duì)抗擾動(dòng)生成方法、裝置、存儲(chǔ)介質(zhì)和計(jì)算設(shè)備
- 一種無(wú)人集群協(xié)同博弈對(duì)抗的控制方法及系統(tǒng)
- 網(wǎng)絡(luò)和網(wǎng)絡(luò)終端
- 網(wǎng)絡(luò)DNA
- 網(wǎng)絡(luò)地址自適應(yīng)系統(tǒng)和方法及應(yīng)用系統(tǒng)和方法
- 網(wǎng)絡(luò)系統(tǒng)及網(wǎng)絡(luò)至網(wǎng)絡(luò)橋接器
- 一種電力線網(wǎng)絡(luò)中根節(jié)點(diǎn)網(wǎng)絡(luò)協(xié)調(diào)方法和系統(tǒng)
- 一種多網(wǎng)絡(luò)定位方法、存儲(chǔ)介質(zhì)及移動(dòng)終端
- 網(wǎng)絡(luò)裝置、網(wǎng)絡(luò)系統(tǒng)、網(wǎng)絡(luò)方法以及網(wǎng)絡(luò)程序
- 從重復(fù)網(wǎng)絡(luò)地址自動(dòng)恢復(fù)的方法、網(wǎng)絡(luò)設(shè)備及其存儲(chǔ)介質(zhì)
- 神經(jīng)網(wǎng)絡(luò)的訓(xùn)練方法、裝置及存儲(chǔ)介質(zhì)
- 網(wǎng)絡(luò)管理方法和裝置





