[發明專利]數據拼接方法、裝置、設備及計算機存儲介質有效
| 申請號: | 202011007016.7 | 申請日: | 2020-09-23 |
| 公開(公告)號: | CN112131258B | 公開(公告)日: | 2023-03-24 |
| 發明(設計)人: | 王建華;周杰 | 申請(專利權)人: | 創新奇智(重慶)科技有限公司 |
| 主分類號: | G06F16/2455 | 分類號: | G06F16/2455;G06F16/242;G06F16/22 |
| 代理公司: | 北京超凡宏宇專利代理事務所(特殊普通合伙) 11463 | 代理人: | 衡滔 |
| 地址: | 400000 重慶市九龍坡區*** | 國省代碼: | 重慶;50 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 數據 拼接 方法 裝置 設備 計算機 存儲 介質 | ||
本申請提供一種數據拼接方法、裝置、設備及計算機存儲介質,其中,數據拼接方法包括步驟:對數據表中的具有相同用戶ID的數據記錄進行字段的類別特征聚合,得到字段的類別特征聚合結果;對數據表中的具有相同用戶ID的數據記錄進行字段的數值特征聚合,得到字段的數值特征聚合結果;對數據表中的具有相同用戶ID的數據記錄進行字段的數值類別特征聚合,得到字段的數值類別特征聚合結果;根據用戶ID將字段的類別特征聚合結果、字段的數值特征聚合結果、字段的數值類別特征聚合結果進行拼接,以得到具有相同用戶ID的數據特征拼接結果。本申請能夠在完成數據拼接的同時,提高多條數據記錄中的有效信息的保留度,以提高拼接后的數據的使用效果。
技術領域
本申請涉及數據處理領域,具體而言,涉及一種數據拼接方法、裝置、設備及計算機存儲介質。
背景技術
目前,針對用戶的信息一般會存放在多個表中,例如“基本信息數據表”存放用戶的個人基本信息,每個用戶在表中對應一條記錄,每條記錄包含性別,年齡,職業,學歷等字段,“信用卡信息表”存放用戶的信用卡信息,每個用戶的每張卡對應表中的一條記錄,記錄中包含發卡機構,發卡時間,授信額度,還款狀態等字段,“貸款信息表”存放的是用戶的貸款信息,每個用戶的每一筆貸款對應表中的一條記錄,記錄中包含“貸款機構”,“發放日期”,“幣種”,“本月還款”等字段,其他的還包括“信息查詢記錄表”,“個人資產信息表”等等。
在某些應用場景下,需要將多個數據表中的數據進行拼接,而傳統的處理方法是在拼接的過程中針對數據表中同一個ID的多條記錄只取一條進行拼接,其余的數據丟棄掉,這種處理方式存在有效信息大量丟失的缺點,影響后續的數據應用效果,例如降低了基于數據拼接的模型學習效果。
發明內容
本申請實施例的目的在于提供一種數據拼接方法、裝置、設備及計算機存儲介質,用以在完成數據拼接的同時,能夠提高多條數據記錄中的有效信息的保留度,以提高拼接后的數據的使用效果。
為此,本申請第一方面公開一種數據拼接方法,所述方法包括步驟:
對數據表中的具有相同用戶ID的數據記錄進行字段的類別特征聚合,得到所述字段的類別特征聚合結果;
對所述數據表中的所述具有相同用戶ID的數據記錄進行字段的數值特征聚合,得到所述字段的數值特征聚合結果;
對所述數據表中的所述具有相同用戶ID的數據記錄進行字段的數值類別特征聚合,得到所述字段的數值類別特征聚合結果;
根據所述用戶ID將所述字段的類別特征聚合結果、所述字段的數值特征聚合結果、所述字段的數值類別特征聚合結果進行拼接,以得到所述具有相同用戶ID的數據特征拼接結果。
在本申請第一方面中,通過對有相同用戶ID的數據記錄進行字段的類別特征、字段的數值特征、字段的數值類別特征的聚合能夠在對相同用戶ID的數據記錄進行拼接時,提高有效數據的保留,降低有效數據的損失。
在本申請第一方面中,作為一種可選的實施方式,所述對數據表中的具有相同用戶ID的數據記錄進行字段的類別特征聚合,得到所述字段的類別特征聚合結果,包括子步驟:
根據所述字段的類別總數確定編碼序列的位個數;
根據所述字段在所述數據記錄的類別對所述編碼序列中進行編碼,其中,編碼后的所述編碼序列包一個有效編碼位,所述有效編碼位的位值為1;
將所述具有相同用戶ID的數據記錄中每條所述數據記錄的所述編碼序列進行位值累加運算,以得到總編碼序列;
將所述總編碼序列作為所述字段的類別特征聚合結果。
在本可選的實施方式中,通過One-Hot編碼機制可得到字段的類別特征聚合結果,其中,進而能夠包括多條數據記錄中字段的類別特征,以便于后續基于字段的類別特征對數據記錄進行運用。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于創新奇智(重慶)科技有限公司,未經創新奇智(重慶)科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011007016.7/2.html,轉載請聲明來源鉆瓜專利網。
- 數據顯示系統、數據中繼設備、數據中繼方法、數據系統、接收設備和數據讀取方法
- 數據記錄方法、數據記錄裝置、數據記錄媒體、數據重播方法和數據重播裝置
- 數據發送方法、數據發送系統、數據發送裝置以及數據結構
- 數據顯示系統、數據中繼設備、數據中繼方法及數據系統
- 數據嵌入裝置、數據嵌入方法、數據提取裝置及數據提取方法
- 數據管理裝置、數據編輯裝置、數據閱覽裝置、數據管理方法、數據編輯方法以及數據閱覽方法
- 數據發送和數據接收設備、數據發送和數據接收方法
- 數據發送裝置、數據接收裝置、數據收發系統、數據發送方法、數據接收方法和數據收發方法
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置





