[發明專利]拼接數據記錄的方法及裝置在審

申請號：	201710538681.0	申請日：	2017-07-04
公開（公告）號：	CN107402978A	公開（公告）日：	2017-11-28
發明（設計）人：	楊強;戴文淵;陳雨強;張舒羽;欒淑君	申請（專利權）人：	第四范式（北京）技術有限公司
主分類號：	G06F17/30	分類號：	G06F17/30
代理公司：	北京銘碩知識產權代理有限公司11286	代理人：	徐璐璐,曾世驍
地址：	100085 北京市海淀區上***	國省代碼：	北京;11
權利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關鍵詞：	拼接數據記錄方法裝置
鉆瓜網技術展會專利詞庫專利權人專利榜在售專利公布日期熱門專利

【說明書】：

技術領域

本發明總體說來涉及信息技術領域，更具體地講，涉及一種拼接數據記錄的方法及裝置。

背景技術

隨著各行業海量數據的出現，需要在越來越多的場景下對數據進行各種處理。例如，利用機器學習技術來挖掘數據的價值。機器學習是人工智能研究發展到一定階段的必然產物，其致力于通過計算的手段，利用經驗來改善系統自身的性能。在計算機系統中，“經驗”通常以“數據”形式存在，通過機器學習算法，可從數據中產生“模型”，也就是說，將經驗數據提供給機器學習算法，就能基于這些經驗數據產生模型，在面對新的樣例時，模型會提供相應的判斷，即，預測結果。可以看出，數據作為機器學習的原材料，影響著機器學習的最終效果。為此，需要不斷地積累數據、更新數據或擴展數據，這就對高效、靈活的數據記錄拼接方式有著很大的需求。

現階段常用的數據記錄拼接方式主要有：使用SQL(Structured Query Language，結構化查詢語言)語句通過編寫程序的方式；或者，諸如阿里云大數據平臺“數加”和微軟云計算系統“Azure”這類產品提供的可視化拼接功能。

然而，使用SQL語句進行數據記錄拼接，對使用者的要求較高，需要使用者掌握SQL語法，學習成本較高。而數加和Azure雖然提供了可視化的交互界面，降低了使用者的門檻，但存在能夠處理的拼接場景過于單一、不夠靈活的問題。

發明內容

本發明的示例性實施例在于提供一種拼接數據記錄的方法及裝置，以解決現有技術存在的上述問題。

根據本發明的示例性實施例，提供一種拼接數據記錄的方法，包括：數據表指定步驟，根據用戶的數據表指定操作來指定將進行數據記錄拼接的至少兩個數據表，其中，數據表的一行對應一條數據記錄，數據表的一列對應一個字段；關聯字段指定步驟，根據用戶的關聯字段指定操作在各個數據表的字段之中分別指定對應關聯字段；輸出字段配置步驟，根據用戶的輸出字段配置操作來配置輸出字段的來源字段和針對來源字段的處理方式，其中，輸出字段為作為數據記錄拼接結果的輸出數據記錄的字段，來源字段為輸出字段所依據的數據表中的字段；以及輸出字段生成步驟，針對各個數據表中對應關聯字段均具有相同字段值的待拼接數據記錄，按照配置的處理方式來處理配置的來源字段的字段值，以生成輸出字段的字段值。

可選地，所述方法還包括：輸出數據記錄生成步驟，基于生成的各個輸出字段的字段值來生成輸出數據表中的輸出數據記錄。

可選地，各個輸出字段在輸出數據表中的排列順序按照用戶的輸出字段配置操作來設置；或者，各個輸出字段在輸出數據表中的排列順序按照所述至少兩個數據表的排列順序以及各個輸出字段的來源字段在各個數據表中的排列順序來設置。

可選地，所述至少兩個數據表包括主表和至少一個拼接表，其中，僅針對所述至少一個拼接表來執行輸出字段配置步驟，并且，在輸出數據記錄生成步驟中，通過將生成的各個輸出字段的字段值附接在主表中的待拼接數據記錄來生成輸出數據表中的輸出數據記錄。

可選地，來源字段還默認包括至少一個對應關聯字段，其中，來源字段為對應關聯字段的輸出字段在輸出數據表中的位置按照用戶的輸出字段配置操作或預設位置來設置。

可選地，在輸出字段配置步驟中，還根據用戶的輸出字段配置操作來配置輸出字段的名稱。

可選地，所述處理方式包括直接提取方式和/或聚合處理方式，其中，在直接提取方式下，將數據表中的單條待拼接數據記錄的來源字段的字段值直接作為輸出字段的字段值；在聚合處理方式下，對數據表中的多條待拼接數據記錄之中的至少一條的來源字段的字段值進行聚合運算以作為輸出字段的字段值。

可選地，所述聚合處理方式包括直接聚合處理方式，其中，在直接聚合處理方式下，對數據表中的多條待拼接數據記錄的來源字段的字段值進行聚合運算以作為輸出字段的字段值。

可選地，所述至少兩個數據表包括主表和至少一個拼接表，并且，所述聚合處理方式包括時序聚合處理方式，其中，在配置時序聚合處理方式時，根據用戶的輸出字段配置操作來配置基礎游標字段、拼接游標字段、聚合范圍以及聚合運算，并且，在時序聚合處理方式下，對拼接表中的多條待拼接數據記錄之中符合時序范圍的待拼接數據記錄的來源字段的字段值進行聚合運算以作為輸出字段的字段值，其中，符合時序范圍的待拼接數據記錄是指拼接游標字段的字段值處于以主表中的待拼接數據記錄的基礎游標字段的字段值為基礎向前和/或向后聚合范圍所確定的范圍內的待拼接數據記錄。

可選地，所述聚合運算包括以下項之中的至少一項：求和、求平均、取最大值、取最小值、計算個數。

下載完整專利技術內容需要扣除積分，VIP會員可以免費下載。

免登錄下載普通用戶下載升級VIP會員，免費下載

該專利技術資料僅供研究查看技術是否侵權等信息，商用須獲得專利權人授權。該專利全部權利屬于第四范式（北京）技術有限公司，未經第四范式（北京）技術有限公司許可，擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作，請聯系【客服】

本文鏈接：http://www.szxzyx.cn/pat/books/201710538681.0/2.html，轉載請聲明來源鉆瓜專利網。