[發明專利]基于實體關系的特征構建方法、裝置、設備及存儲介質在審
| 申請號: | 202010156947.7 | 申請日: | 2020-03-09 |
| 公開(公告)號: | CN111460047A | 公開(公告)日: | 2020-07-28 |
| 發明(設計)人: | 劉利 | 申請(專利權)人: | 平安科技(深圳)有限公司 |
| 主分類號: | G06F16/28 | 分類號: | G06F16/28;G06F16/36 |
| 代理公司: | 北京市京大律師事務所 11321 | 代理人: | 劉挽瀾 |
| 地址: | 518033 廣東省深圳市福田區福*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 實體 關系 特征 構建 方法 裝置 設備 存儲 介質 | ||
1.一種基于實體關系的特征構建方法,其特征在于,所述基于實體關系的特征構建方法包括以下步驟:
獲取關系數據庫中的主表以及與所述主表關聯的多個副表,其中,所述主表設有一個主鍵列和多個外鍵列,且所述主表中每個條目對應一個實體,所述副表通過所述主表的外鍵與所述主表關聯;
以所述主表和所述副表為節點,以所述主表、所述副表兩兩之間的關聯關系為邊,構建有向表間關系圖;
以所述主表對應節點為起點,遍歷所述表間關系圖,以采集所述主表中各實體與對應的所述副表的表間關系數據;
基于預置的轉換函數,對所述表間關系數據進行轉換計算,以構建所述主表中各實體對應的特征。
2.如權利要求1所述的基于實體關系的特征構建方法,其特征在于,所述表間關系圖的邊M采用如下定義方式:
其中,Ti-1、Ti是數據庫中的表,Ci是連接表Ti-1、Ti的鍵列,i為正整數;
A、當Ci是Ti-1的主鍵時,Ti-1與Ti為一對多的關聯關系;
B、當Ci既是Ti-1的主鍵,也是Ti的主鍵時,Ti-1與Ti為一對一的關聯關系;
C、當Ci是Ti的主鍵時,Ti-1與Ti為多對一的關聯關系;
D、當Ci既不是Ti-1的主鍵,也不是Ti的主鍵時,Ti-1與Ti為多對多的關聯關系。
3.如權利要求2所述的基于實體關系的特征構建方法,其特征在于,遍歷所述表間關系圖中各實體對應的連接路徑Pk由k條所述表間關系圖的邊M依次連接而成,并采用如下定義方式:
其中,Ti-1、Ti表示數據庫中的表,Ci是連接表Ti-1、Ti的外鍵列,i、k為正整數,且i取2至(k-1)中的任意正整數,T0表示主表,Ti表示副表,C表示連接路徑中最后一個副表Tk中的屬性列。
4.如權利要求3所述的基于實體關系的特征構建方法,其特征在于,所述以所述主表對應節點為起點,遍歷所述表間關系圖,以采集所述主表中各實體與對應所述副表的表間關系數據包括:
以所述主表對應節點為起點,根據所述連接路徑Pi,遍歷所述表間關系圖,并生成所述主表中各實體與對應所述副表的連接路徑對應的關系樹;
基于所述表間關系圖的遍歷深度,對各實體對應的關系樹分別進行分組操作,以采集所述主表中各實體與對應所述副表的表間關系數據;
其中,所述關系樹的根節點對應于所述主表中的一個實體,所述關系樹的葉節點對應于通過遍歷所述連接路徑Pi采集到的副表Tk中的屬性列C,遍歷深度為i的子節點對應于通過遍歷所述連接路徑Pi采集到的副表Ti中的外鍵列Ci。
5.如權利要求1-4中任一所述的基于實體關系的特征構建方法,其特征在于,在所述基于預置的轉換函數,對所述表間關系數據進行轉換計算,以構建所述主表中各實體對應的特征的步驟之后,還包括:
檢驗構建的特征中是否存在重復的特征;
若存在重復的特征,則刪除重復的特征,并采用卡方假設檢驗特征和目標變量之間是否存在相關性;
若不存在重復的特征,則采用卡方假設檢驗特征和目標變量之間是否存在相關性;
若存在相關性且卡方值大于預置卡方值閾值的特征,則保留該特征,否則刪除該特征。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于平安科技(深圳)有限公司,未經平安科技(深圳)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010156947.7/1.html,轉載請聲明來源鉆瓜專利網。





