[發(fā)明專利]數(shù)據(jù)合成的方法、裝置和設(shè)備有效
| 申請?zhí)枺?/td> | 202010312562.5 | 申請日: | 2020-04-20 |
| 公開(公告)號: | CN111625523B | 公開(公告)日: | 2023-08-08 |
| 發(fā)明(設(shè)計)人: | 孫尉嘉;杜雨諾 | 申請(專利權(quán))人: | 沈陽派客動力科技有限公司 |
| 主分類號: | G06F16/215 | 分類號: | G06F16/215;G06F16/22;G06F16/25 |
| 代理公司: | 北京華清迪源知識產(chǎn)權(quán)代理有限公司 11577 | 代理人: | 康震 |
| 地址: | 110000 遼寧省沈陽市*** | 國省代碼: | 遼寧;21 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 數(shù)據(jù) 合成 方法 裝置 設(shè)備 | ||
1.一種數(shù)據(jù)合成的方法,其特征在于,包括:
由數(shù)據(jù)庫或其他源讀取原始數(shù)據(jù);
將所述原始數(shù)據(jù)分為鍵值數(shù)據(jù)和剩余數(shù)據(jù);
根據(jù)所述鍵值數(shù)據(jù)生成新鍵值;
將所述剩余數(shù)據(jù)進(jìn)行處理得到離散數(shù)據(jù)和連續(xù)數(shù)據(jù);具體地,將去除主鍵值后的剩余數(shù)據(jù)按照數(shù)據(jù)類型分為字符型,數(shù)字型數(shù)據(jù)及時間類數(shù)據(jù)和離散數(shù)據(jù);其中,類型區(qū)分的方式是利用Java連接SQL,讀取數(shù)據(jù)庫內(nèi)存儲的數(shù)據(jù)類型,與自設(shè)類型或java類型建立匹配關(guān)系;
對所述離散數(shù)據(jù)進(jìn)行卡方分布處理得到新離散數(shù)據(jù);
對所述連續(xù)數(shù)據(jù)進(jìn)行因子處理得到字符數(shù)據(jù)、第一數(shù)字?jǐn)?shù)據(jù)和時間數(shù)據(jù),并將所述時間數(shù)據(jù)進(jìn)行因子化得到第二數(shù)字?jǐn)?shù)據(jù),進(jìn)而根據(jù)所述第一數(shù)字?jǐn)?shù)據(jù)和所述第二數(shù)字?jǐn)?shù)據(jù)得到合并數(shù)字?jǐn)?shù)據(jù);
根據(jù)所述字符數(shù)據(jù)生成新連續(xù)字符數(shù)據(jù);
根據(jù)所述合并數(shù)字?jǐn)?shù)據(jù)進(jìn)行Copula過程和算式數(shù)據(jù)處理生成新連續(xù)數(shù)字?jǐn)?shù)據(jù),并把Copula過程得到數(shù)字?jǐn)?shù)據(jù)處理為時間型數(shù)據(jù);
將所述新鍵值、所述新離散數(shù)據(jù)、所述新連續(xù)字符數(shù)據(jù)、所述新連續(xù)數(shù)字?jǐn)?shù)據(jù)和所述時間型數(shù)據(jù)進(jìn)行數(shù)據(jù)合成,生成與所述原始數(shù)據(jù)擁有相同集特征的合成數(shù)據(jù),作為大量機(jī)器學(xué)習(xí)所需訓(xùn)練集數(shù)據(jù)。
2.根據(jù)權(quán)利要求1所述的數(shù)據(jù)合成的方法,其特征在于,所述根據(jù)所述字符數(shù)據(jù)生成新連續(xù)字符數(shù)據(jù),包括:
根據(jù)所述字符數(shù)據(jù)使用抽取轉(zhuǎn)換裝載ETL生成所述新連續(xù)字符數(shù)據(jù)。
3.根據(jù)權(quán)利要求1所述的數(shù)據(jù)合成的方法,其特征在于,所述將所述原始數(shù)據(jù)分為所述鍵值數(shù)據(jù)和所述剩余數(shù)據(jù),包括:
對所述原始數(shù)據(jù)進(jìn)行數(shù)據(jù)清洗;
對所述數(shù)據(jù)清洗后的原始數(shù)據(jù),采用根據(jù)主鍵約束得到所述鍵值數(shù)據(jù)和所述剩余數(shù)據(jù)。
4.一種數(shù)據(jù)合成的裝置,其特征在于,包括:
原始數(shù)據(jù)獲取模塊,用于由數(shù)據(jù)庫或其他源獲取原始數(shù)據(jù);
處理模塊,用于將所述原始數(shù)據(jù)分為鍵值數(shù)據(jù)和剩余數(shù)據(jù),根據(jù)所述鍵值數(shù)據(jù)生成新鍵值,并將所述剩余數(shù)據(jù)進(jìn)行處理得到離散數(shù)據(jù)和連續(xù)數(shù)據(jù);具體地,將去除主鍵值后的剩余數(shù)據(jù)按照數(shù)據(jù)類型分為字符型,數(shù)字型數(shù)據(jù)及時間類數(shù)據(jù)和離散數(shù)據(jù);其中,類型區(qū)分的方式是利用Java連接SQL,讀取數(shù)據(jù)庫內(nèi)存儲的數(shù)據(jù)類型,與自設(shè)類型或java類型建立匹配關(guān)系;
所述處理模塊還用于對所述離散數(shù)據(jù)進(jìn)行卡方分布處理得到新離散數(shù)據(jù),并對所述連續(xù)數(shù)據(jù)進(jìn)行因子處理得到字符數(shù)據(jù)、第一數(shù)字?jǐn)?shù)據(jù)和時間數(shù)據(jù),并將所述時間數(shù)據(jù)進(jìn)行因子化得到第二數(shù)字?jǐn)?shù)據(jù),進(jìn)而根據(jù)所述第一數(shù)字?jǐn)?shù)據(jù)和所述第二數(shù)字?jǐn)?shù)據(jù)得到合并數(shù)字?jǐn)?shù)據(jù);所述處理模塊還用于根據(jù)所述字符數(shù)據(jù)生成新連續(xù)字符數(shù)據(jù),根據(jù)所述合并數(shù)字?jǐn)?shù)據(jù)進(jìn)行Copula過程和算式數(shù)據(jù)處理生成新連續(xù)數(shù)字?jǐn)?shù)據(jù),并把Copula過程得到數(shù)字?jǐn)?shù)據(jù)處理為時間型數(shù)據(jù);將所述新鍵值、所述新離散數(shù)據(jù)、所述新連續(xù)字符數(shù)據(jù)、所述新連續(xù)數(shù)字?jǐn)?shù)據(jù)和所述時間型數(shù)據(jù)進(jìn)行數(shù)據(jù)合成,生成與所述原始數(shù)據(jù)擁有相同集特征的合成數(shù)據(jù),作為大量機(jī)器學(xué)習(xí)所需訓(xùn)練集數(shù)據(jù)。
5.根據(jù)權(quán)利要求4所述的數(shù)據(jù)合成的裝置,其特征在于,所述處理模塊用于根據(jù)所述字符數(shù)據(jù)使用抽取轉(zhuǎn)換裝載ETL生成所述新連續(xù)字符數(shù)據(jù)。
6.根據(jù)權(quán)利要求4所述的數(shù)據(jù)合成的裝置,其特征在于,所述處理模塊用于對所述原始數(shù)據(jù)進(jìn)行數(shù)據(jù)清洗;對所述數(shù)據(jù)清洗后的原始數(shù)據(jù),采用根據(jù)主鍵約束得到所述鍵值數(shù)據(jù)和所述剩余數(shù)據(jù)。
7.一種電子設(shè)備,其特征在于,所述電子設(shè)備包括:至少一個處理器和至少一個存儲器;
所述存儲器用于存儲一個或多個程序指令;
所述處理器,用于運行一個或多個程序指令,用以執(zhí)行如權(quán)利要求1-3任一項所述的數(shù)據(jù)合成的方法。
8.一種計算機(jī)可讀存儲介質(zhì),其特征在于,所述計算機(jī)可讀存儲介質(zhì)中包含一個或多個程序指令,所述一個或多個程序指令用于執(zhí)行如權(quán)利要求1-3任一項所述的數(shù)據(jù)合成的方法。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于沈陽派客動力科技有限公司,未經(jīng)沈陽派客動力科技有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010312562.5/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 上一篇:MUT指紋ID系統(tǒng)
- 下一篇:閃存特性分析方法及系統(tǒng)
- 數(shù)據(jù)顯示系統(tǒng)、數(shù)據(jù)中繼設(shè)備、數(shù)據(jù)中繼方法、數(shù)據(jù)系統(tǒng)、接收設(shè)備和數(shù)據(jù)讀取方法
- 數(shù)據(jù)記錄方法、數(shù)據(jù)記錄裝置、數(shù)據(jù)記錄媒體、數(shù)據(jù)重播方法和數(shù)據(jù)重播裝置
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)發(fā)送系統(tǒng)、數(shù)據(jù)發(fā)送裝置以及數(shù)據(jù)結(jié)構(gòu)
- 數(shù)據(jù)顯示系統(tǒng)、數(shù)據(jù)中繼設(shè)備、數(shù)據(jù)中繼方法及數(shù)據(jù)系統(tǒng)
- 數(shù)據(jù)嵌入裝置、數(shù)據(jù)嵌入方法、數(shù)據(jù)提取裝置及數(shù)據(jù)提取方法
- 數(shù)據(jù)管理裝置、數(shù)據(jù)編輯裝置、數(shù)據(jù)閱覽裝置、數(shù)據(jù)管理方法、數(shù)據(jù)編輯方法以及數(shù)據(jù)閱覽方法
- 數(shù)據(jù)發(fā)送和數(shù)據(jù)接收設(shè)備、數(shù)據(jù)發(fā)送和數(shù)據(jù)接收方法
- 數(shù)據(jù)發(fā)送裝置、數(shù)據(jù)接收裝置、數(shù)據(jù)收發(fā)系統(tǒng)、數(shù)據(jù)發(fā)送方法、數(shù)據(jù)接收方法和數(shù)據(jù)收發(fā)方法
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)再現(xiàn)方法、數(shù)據(jù)發(fā)送裝置及數(shù)據(jù)再現(xiàn)裝置
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)再現(xiàn)方法、數(shù)據(jù)發(fā)送裝置及數(shù)據(jù)再現(xiàn)裝置





