[發明專利]多表拼接方法、裝置、電子設備及存儲介質在審
| 申請號: | 202110667383.8 | 申請日: | 2021-06-16 |
| 公開(公告)號: | CN113312890A | 公開(公告)日: | 2021-08-27 |
| 發明(設計)人: | 周浩;羅遠飛;涂威威 | 申請(專利權)人: | 第四范式(北京)技術有限公司 |
| 主分類號: | G06F40/18 | 分類號: | G06F40/18 |
| 代理公司: | 北京墨丘知識產權代理事務所(普通合伙) 11878 | 代理人: | 代峰;谷軼楠 |
| 地址: | 100085 北京市海淀區清*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 拼接 方法 裝置 電子設備 存儲 介質 | ||
1.一種多表拼接方法,其特征在于,包括:
基于關系數據表集合構建本體視圖;其中,所述關系數據表集合包括一個主數據表和至少一個副數據表,所述本體視圖中的每個節點代表一個數據表,所述本體視圖中兩個節點之間的關系邊代表對應兩個數據表之間的關系;
基于所述本體視圖,獲取每個副數據表節點到主數據表節點的元路徑;其中,每條元路徑中的相鄰兩個節點之間的連接關系包括對應兩個數據表之間的關系和拼表操作符;
基于每個元路徑,將對應副數據表中的特征數據拼接到主數據表中;其中,每個元路徑中的中間節點只充當傳遞節點,其對應數據表的特征數據不通過該元路徑傳遞到主數據表。
2.根據權利要求1所述的方法,其中,所述獲取每個副數據表節點到主數據表節點的元路徑包括:
對于所述至少一個副數據表中的每個副數據表,在本體視圖中隨機選取對應副數據表節點到達主數據表節點的路徑,或者在本體視圖中選取對應副數據表節點到達主數據表節點的最短路徑,或者在本體視圖中按用戶配置條件選取對應副數據表節點到達主數據表節點的路徑,將選取結果作為所述元路徑。
3.根據權利要求1或2所述的方法,其中,所述方法還包括:
在完成所述拼接之后,基于所述主數據表進行模型訓練;
使用訓練后的模型對所述關系數據表集合對應的至少一個服務進行預測。
4.根據權利要求1所述的方法,其特征在于,所述拼表操作符與所述相鄰兩個節點中尾端節點的數據表連接鍵值相對應。
5.根據權利要求4所述的方法,其特征在于,所述拼表操作符包括:
在所述尾端節點的數據表連接鍵值是唯一值時,對應的所述拼表操作符為直接拼表操作符;或者,
在所述尾端節點的數據表連接鍵值是非唯一值時,對應的所述拼表操作符為聚合拼表操作符。
6.根據權利要求5所述的方法,其特征在于,所述聚合拼表操作符包括:最大化連接拼表操作符和/或最小化連接拼表操作符。
7.一種多表拼接裝置,其特征在于,包括:
本體視圖構建模塊,用于基于關系數據表集合構建本體視圖;其中,所述關系數據表集合包括一個主數據表和至少一個副數據表,所述本體視圖中的每個節點代表一個數據表,所述本體視圖中兩個節點之間的關系邊代表對應兩個數據表之間的關系;
元路徑獲取模塊,用于基于所述本體視圖,獲取每個副數據表節點到主數據表節點的元路徑;其中,每條元路徑中的相鄰兩個節點之間的連接關系包括對應兩個數據表之間的關系和拼表操作符;
表拼接模塊,用于基于每個元路徑,將對應副數據表中的特征數據拼接到主數據表中;其中,每個元路徑中的中間節點只充當傳遞節點,其對應數據表的特征數據不通過該元路徑傳遞到主數據表。
8.根據權利要求7所述的裝置,其中,對于所述至少一個副數據表中的每個副數據表,所述元路徑獲取模塊包括:
隨機選取模塊,用于在本體視圖中隨機選取對應副數據表節點到達主數據表節點的路徑;
或者,最短路徑選取模塊,用于在本體視圖中選取對應副數據表節點到達主數據表節點的最短路徑;
或者,條件選取模塊,用于在本體視圖中按用戶配置條件選取對應副數據表節點到達主數據表節點的路徑。
9.一種電子設備,其特征在于,包括:
存儲器以及一個或多個處理器;
其中,所述存儲器與所述一個或多個處理器通信連接,所述存儲器中存儲有可被所述一個或多個處理器執行的指令,所述指令被所述一個或多個處理器執行時,所述電子設備用于實現如權利要求1-6任一項所述的方法。
10.一種計算機可讀存儲介質,其上存儲有計算機可執行指令,當所述計算機可執行指令被計算裝置執行時,可用來實現如權利要求1-6任一項所述的方法。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于第四范式(北京)技術有限公司,未經第四范式(北京)技術有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110667383.8/1.html,轉載請聲明來源鉆瓜專利網。





