[發明專利]處理數據表的方法和系統有效
| 申請號: | 202010436543.3 | 申請日: | 2020-05-21 |
| 公開(公告)號: | CN111611245B | 公開(公告)日: | 2023-09-05 |
| 發明(設計)人: | 包新啟;陳迪豪;陳靚;王子賢;王太澤 | 申請(專利權)人: | 第四范式(北京)技術有限公司 |
| 主分類號: | G06F16/22 | 分類號: | G06F16/22;G06F16/242;G06F16/2455;G06F16/248 |
| 代理公司: | 北京銘碩知識產權代理有限公司 11286 | 代理人: | 董鋼;王兆賡 |
| 地址: | 100085 北京市海淀區上*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 處理 數據表 方法 系統 | ||
提供了一種處理數據表的方法和系統。所述方法包括:獲取約束條件;獲取存儲業務信息的一個主數據表和至少一個從數據表,其中,所述一個主數據表的索引字段與所述至少一個從數據表的索引字段對應;根據所述約束條件,處理所述一個主數據表和所述至少一個從數據表,以獲得一個輸出數據表,其中,所述一個輸出數據表中的每行數據對應于所述一個主數據表中的一行數據并且對應于所述至少一個從數據表的多行數據中的符合所述約束條件并且具有最大時間字段值的一行數據。
技術領域
本公開總體說來涉及數據管理和維護領域,更具體地講,涉及一種處理數據表的方法和系統。
背景技術
在進行大數據處理的過程中,涉及人工智能的使用。在使用人工智能的過程中,涉及特征工程。表連接操作是在特征工程中經常被使用的操作。表連接操作用于將存儲業務信息的多個數據表進行連接,以便通過對不同數據表進行聚合,從而利用數據表所表達的各種業務信息來進行特征構造。
在表連接操作的過程中,需要考慮數據表中存儲的時間信息。例如,可獲取購買記錄數據表和瀏覽記錄數據表。購買記錄數據表包括用戶標識符(Identity,簡稱為ID)字段、交易時間字段、以及交易金額,瀏覽記錄數據表包括用戶ID字段、瀏覽時間字段、以及商品ID字段??墒褂媒Y構化查詢語言(Structured?Query?Language,簡稱為SQL)來進行表連接,并利用連接的表進行諸如“用戶某次購買前瀏覽商品次數”等的查詢操作。
然而,利用現有的結構化查詢語言進行的以上查詢操作是獲得多條查詢結果的操作,而非獲得一條查詢結果的操作。換言之,利用現有的結構化查詢語言難以處理僅需要一條查詢結果的查詢操作。例如,不能實現獲取“用戶某次購買前最近一次瀏覽的商品”、“時間早于第一預定時間的第一條數據”、“時間不早于第二預定時間的最后一條數據”等的查詢操作,或者,即使能夠實現獲取“用戶某次購買前最近一次瀏覽的商品”等的查詢操作,這樣的查詢操作也需要手動配置,從而產生查詢效率低的問題。因此,如何基于數據表自動執行獲得一條查詢結果的操作已經成為一個非常重要的問題。
發明內容
本公開的示例性實施例提供了一種處理數據表的方法和系統,旨在提高處理效率和操作便利。
根據本公開的示例性實施例,提供了一種處理數據表的方法,其中,所述方法包括:獲取約束條件;獲取存儲業務信息的一個主數據表和至少一個從數據表,其中,所述一個主數據表的索引字段與所述至少一個從數據表的索引字段對應;根據所述約束條件,處理所述一個主數據表和所述至少一個從數據表,以獲得一個輸出數據表,其中,所述一個輸出數據表中的每行數據對應于所述一個主數據表中的一行數據并且對應于所述至少一個從數據表的多行數據中的符合所述約束條件并且具有最大時間字段值的一行數據。
可選的,所述一個主數據表和所述至少一個從數據表存儲于離線數據庫,處理所述一個主數據表和所述至少一個從數據表的步驟包括:基于索引字段,將所述一個主數據表中的每行數據與所述至少一個從數據表的一行數據合并,以獲得多行中間數據,其中,與所述一個主數據表中的任意一行數據合并的所述至少一個從數據表的一行數據是與所述任意一行數據通過索引字段對應并且符合所述約束條件的一行數據;對所述多行中間數據進行篩選,以獲得所述一個輸出數據表,其中,在所述多行中間數據中的具有相同索引字段值的多行中間數據之中,將具有最大時間字段值的一行中間數據作為所述一個輸出數據表的一行數據。
可選的,所述一個主數據表和所述至少一個從數據表存儲于在線數據庫,處理所述一個主數據表和所述至少一個從數據表的步驟包括:查找與所述一個主數據表中的每行數據對應的所述至少一個從數據表的一行數據,其中,與所述一個主數據表中的任意一行數據對應的所述至少一個從數據表的一行數據是與所述一個主數據表中的所述任意一行數據對應的所述至少一個從數據表的符合所述約束條件的各行數據之中的具有最大時間字段值的一行數據;將所述一個主數據表中的每行數據與查找到的所述至少一個從數據表的一行數據進行合并,其中,所述一個主數據表中的任意一行數據與查找到的所述至少一個從數據表的一行數據合并后獲得的一行數據是所述一個輸出數據表的一行數據。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于第四范式(北京)技術有限公司,未經第四范式(北京)技術有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010436543.3/2.html,轉載請聲明來源鉆瓜專利網。





