[發(fā)明專利]數(shù)據(jù)表拼接方法、裝置、計算機設(shè)備和存儲介質(zhì)有效
| 申請?zhí)枺?/td> | 201911300563.1 | 申請日: | 2019-12-17 |
| 公開(公告)號: | CN111178024B | 公開(公告)日: | 2023-09-12 |
| 發(fā)明(設(shè)計)人: | 郭超 | 申請(專利權(quán))人: | 深圳市金蝶天燕云計算股份有限公司 |
| 主分類號: | G06F40/183 | 分類號: | G06F40/183 |
| 代理公司: | 華進聯(lián)合專利商標代理有限公司 44224 | 代理人: | 毛丹 |
| 地址: | 518051 廣東省深圳市南山區(qū)粵海街道高*** | 國省代碼: | 廣東;44 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 數(shù)據(jù)表 拼接 方法 裝置 計算機 設(shè)備 存儲 介質(zhì) | ||
本申請涉及一種數(shù)據(jù)表拼接方法、裝置、計算機設(shè)備和存儲介質(zhì),包括:獲取原始數(shù)據(jù)表;通過原始數(shù)據(jù)表對應(yīng)的框架的內(nèi)置函數(shù)在原始數(shù)據(jù)表中添加第一數(shù)據(jù)列,第一數(shù)據(jù)列的數(shù)據(jù)是有序不連續(xù)的;通過原始數(shù)據(jù)表對應(yīng)的框架的內(nèi)置函數(shù)在原始數(shù)據(jù)表中添加第二數(shù)據(jù)列,第二數(shù)據(jù)列的數(shù)據(jù)是相同數(shù)值的常數(shù);根據(jù)第一數(shù)據(jù)列和第二數(shù)據(jù)列定義第一窗口規(guī)范,根據(jù)第一窗口規(guī)范通過原始數(shù)據(jù)表對應(yīng)的框架的第一窗口函數(shù)在原始數(shù)據(jù)表中添加第一主鍵列,第一主鍵列的數(shù)據(jù)是單調(diào)連續(xù)遞增的;獲取目標待拼接數(shù)據(jù)表,目標待拼接數(shù)據(jù)表包括第二主鍵列;將第一主鍵列和第二主鍵列進行匹配,根據(jù)匹配結(jié)果將原始數(shù)據(jù)表和目標待拼接數(shù)據(jù)表進行拼接,得到目標拼接數(shù)據(jù)表。
技術(shù)領(lǐng)域
本申請涉及計算機技術(shù)領(lǐng)域,特別是涉及一種數(shù)據(jù)表拼接方法、裝置、計算機設(shè)備和存儲介質(zhì)。
背景技術(shù)
隨著計算機技術(shù)的發(fā)展,計算機需要計算處理的數(shù)據(jù)量越來越龐大。針對大規(guī)模數(shù)據(jù)量的處理,可以采用大數(shù)據(jù)處理系統(tǒng),例如主流的大數(shù)據(jù)處理系統(tǒng)Apache?Spark。大數(shù)據(jù)處理系統(tǒng)可以處理多種數(shù)據(jù)結(jié)構(gòu)的數(shù)據(jù)表。
傳統(tǒng)方式中,在一些特定數(shù)據(jù)結(jié)構(gòu)的數(shù)據(jù)表上添加一列數(shù)據(jù)只能通過對該數(shù)據(jù)表現(xiàn)有數(shù)據(jù)列的轉(zhuǎn)換或者只能在該數(shù)據(jù)表上添加有規(guī)律的一列數(shù)據(jù),例如添加一列數(shù)據(jù)全為“男”的“性別”列,傳統(tǒng)方法存在無法在該數(shù)據(jù)表上添加無規(guī)律的多列數(shù)據(jù)的問題。
發(fā)明內(nèi)容
基于此,有必要針對上述技術(shù)問題,提供一種能夠在數(shù)據(jù)表上添加無規(guī)律的多列數(shù)據(jù)的數(shù)據(jù)表拼接方法、裝置、計算機設(shè)備和存儲介質(zhì)。
一種數(shù)據(jù)表拼接方法,所述方法包括:
獲取原始數(shù)據(jù)表;
通過所述原始數(shù)據(jù)表對應(yīng)的框架的內(nèi)置函數(shù)在所述原始數(shù)據(jù)表中添加第一數(shù)據(jù)列,所述第一數(shù)據(jù)列的數(shù)據(jù)是有序不連續(xù)的;
通過所述原始數(shù)據(jù)表對應(yīng)的框架的內(nèi)置函數(shù)在所述原始數(shù)據(jù)表中添加第二數(shù)據(jù)列,所述第二數(shù)據(jù)列的數(shù)據(jù)是相同數(shù)值的常數(shù);
根據(jù)所述第一數(shù)據(jù)列和第二數(shù)據(jù)列定義第一窗口規(guī)范,根據(jù)所述第一窗口規(guī)范通過所述原始數(shù)據(jù)表對應(yīng)的框架的第一窗口函數(shù)在所述原始數(shù)據(jù)表中添加第一主鍵列,所述第一主鍵列的數(shù)據(jù)是單調(diào)連續(xù)遞增的;
獲取目標待拼接數(shù)據(jù)表,所述目標待拼接數(shù)據(jù)表包括第二主鍵列;
將所述第一主鍵列和第二主鍵列進行匹配,根據(jù)匹配結(jié)果將所述原始數(shù)據(jù)表和目標待拼接數(shù)據(jù)表進行拼接,得到目標拼接數(shù)據(jù)表。
在其中一個實施例中,所述獲取目標待拼接數(shù)據(jù)表之前,所述方法還包括:
獲取原始待拼接數(shù)據(jù)表;
當所述原始待拼接數(shù)據(jù)表和原始數(shù)據(jù)表的數(shù)據(jù)結(jié)構(gòu)一致時,通過所述原始數(shù)據(jù)表對應(yīng)的框架的內(nèi)置函數(shù)在所述原始待拼接數(shù)據(jù)表中添加第三數(shù)據(jù)列,通過所述原始數(shù)據(jù)表對應(yīng)的框架的內(nèi)置函數(shù)在所述原始待拼接數(shù)據(jù)表中添加第四數(shù)據(jù)列;
根據(jù)所述第三數(shù)據(jù)列和第四數(shù)據(jù)列定義第二窗口規(guī)范,根據(jù)所述第二窗口規(guī)范通過所述原始數(shù)據(jù)表對應(yīng)的框架的第二窗口函數(shù)在所述原始待拼接數(shù)據(jù)表中添加所述第二主鍵列,得到所述目標待拼接數(shù)據(jù)表。
在其中一個實施例中,所述方法還包括:
當所述原始待拼接數(shù)據(jù)表和原始數(shù)據(jù)表的數(shù)據(jù)結(jié)構(gòu)不一致,并且所述原始待拼接數(shù)據(jù)表的數(shù)據(jù)結(jié)構(gòu)為基礎(chǔ)數(shù)據(jù)結(jié)構(gòu)時,在所述原始待拼接數(shù)據(jù)表中添加所述第二主鍵列,得到候選待拼接數(shù)據(jù)表;
獲取所述候選待拼接數(shù)據(jù)表的數(shù)據(jù);
根據(jù)所述候選待拼接數(shù)據(jù)表的數(shù)據(jù)創(chuàng)建所述目標待拼接數(shù)據(jù)表,所述目標待拼接數(shù)據(jù)表和所述原始數(shù)據(jù)表的數(shù)據(jù)結(jié)構(gòu)一致。
在其中一個實施例中,所述方法還包括:
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于深圳市金蝶天燕云計算股份有限公司,未經(jīng)深圳市金蝶天燕云計算股份有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201911300563.1/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 數(shù)據(jù)表儲存、修改、查詢和統(tǒng)計方法
- 一種基于關(guān)聯(lián)規(guī)則的數(shù)據(jù)表分類系統(tǒng)與方法
- 數(shù)據(jù)表儲存、修改、查詢和統(tǒng)計方法
- 一種數(shù)據(jù)識別方法及裝置
- 一種數(shù)據(jù)表切換方法及裝置
- 數(shù)據(jù)表的校驗方法及裝置、電子設(shè)備、存儲介質(zhì)
- 對數(shù)據(jù)集中的數(shù)據(jù)表進行抽樣和校驗的方法及裝置
- 主機中數(shù)據(jù)關(guān)聯(lián)訪問的方法和裝置
- 數(shù)據(jù)管理方法、裝置及服務(wù)器
- 數(shù)據(jù)處理方法、裝置、設(shè)備及計算機可讀存儲介質(zhì)





