[發明專利]一種分布式架構的特征自動生成方法和系統在審

申請號：	202011283601.X	申請日：	2020-11-17
公開（公告）號：	CN112380205A	公開（公告）日：	2021-02-19
發明（設計）人：	楊帆;周楚杰;黃馨	申請（專利權）人：	北京融七牛信息技術有限公司
主分類號：	G06F16/215	分類號：	G06F16/215;G06F16/22;G06F16/27
代理公司：	北京山允知識產權代理事務所(特殊普通合伙) 11741	代理人：	胡冰
地址：	100043 北京市石景山區***	國省代碼：	北京;11
權利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關鍵詞：	一種分布式架構特征自動生成方法系統
鉆瓜網技術展會專利詞庫專利權人專利榜在售專利公布日期熱門專利

【權利要求書】：

1.一種分布式架構的特征自動生成方法，其特征在于，包括：

S1，從數據庫中抽取樣本對應的數據，每張表存儲為一張新的數據表；

S2，對抽取的數據進行清洗加工；

S3，將數據表進行分區，使得歸屬同一個樣本的所有數據都存放到同一個分區中；

S4，采用分布式計算引擎對數據進行特征生成；

S5，將生成的特征數據文件進行合并，合成一個完整的特征數據文件。

2.根據權利要求1所述的分布式架構的特征自動生成方法，其特征在于，步驟S3包括：

S31，對樣本表隨機給定分區號，不同的樣本可以給定相同的分區號，之后相同分區號的數據被劃分到同一個分區中；

S32，從樣本表開始，根據表的關聯關系，依次傳遞分區號，使得每一條數據都給定一個分區號；

S33，在所有的數據表都給定分區號之后，將樣本表及數據表根據分區號進行分區存儲，相同分區號的數據被劃分到同一個分區下。

3.根據權利要求1所述的分布式架構的特征自動生成方法，其特征在于，在步驟S4中，采用分布式計算引擎進行特征生成。

4.根據權利要求3所述的分布式架構的特征自動生成方法，其特征在于，步驟S4包括：

S41，設置主節點，主節點調用多個子節點中的一個子節點進行特征計算，子節點讀取對應分區的數據，進行特征生成；

S42，主節點將生成的特征列名數據發送給每一個子節點；

S43，每個子節點根據具體的特征列名計算對應的特征數據。

5.根據權利要求1所述的分布式架構的特征自動生成方法，其特征在于，步驟S2包括：

將亂碼數據置空；對數據進行回溯；將數據字段名統一重命名；以及數據去重。

6.一種分布式架構的特征自動生成系統，其特征在于，包括：

數據抽取單元，從數據庫中抽取樣本對應的數據，每張表存儲為一張新的數據表；

數據加工單元，對抽取的數據進行清洗加工；

數據分區單元，將數據表進行分區，使得歸屬同一個樣本的所有數據都存放到同一個分區中；

特征生成單元，為分布式計算引擎，對數據進行特征生成；

特征合并單元，將特征生成單元生成的特征數據文件進行合并，合成一個完整的特征數據文件。

7.根據權利要求6所述的分布式架構的特征自動生成系統，其特征在于，所述數據分區單元能夠完成如下步驟：

對樣本表隨機給定分區號，不同的樣本可以給定相同的分區號，之后相同分區號的數據被劃分到同一個分區中；

從樣本表開始，根據表的關聯關系，依次傳遞分區號，使得每一條數據都給定一個分區號；

在所有的數據表都給定分區號之后，將樣本表及數據表根據分區號進行分區存儲，相同分區號的數據被劃分到同一個分區下。

8.根據權利要求1所述的分布式架構的特征自動生成系統，其特征在于，特征生成單元采用分布式計算引擎進行特征生成。

9.根據權利要求8所述的分布式架構的特征自動生成系統，其特征在于，特征生成單元包括多個主節點和多個子節點，主節點調用某一個子節點進行特征計算，子節點讀取對應分區的數據，進行特征生成；主節點將生成的特征列名數據發送給每一個子節點；每個子節點根據具體的特征列名計算對應的特征數據。

10.根據權利要求6所述的分布式架構的特征自動生成系統，其特征在于，數據加工單元能夠將亂碼數據置空；對數據進行回溯；將數據字段名統一重命名；以及數據去重。

下載完整專利技術內容需要扣除積分，VIP會員可以免費下載。

免登錄下載普通用戶下載升級VIP會員，免費下載

該專利技術資料僅供研究查看技術是否侵權等信息，商用須獲得專利權人授權。該專利全部權利屬于北京融七牛信息技術有限公司，未經北京融七牛信息技術有限公司許可，擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作，請聯系【客服】

本文鏈接：http://www.szxzyx.cn/pat/books/202011283601.X/1.html，轉載請聲明來源鉆瓜專利網。

同類專利

專利分類

G 物理

G06 計算；推算；計數
G06F 電數字數據處理

免登錄下載普通用戶下載升級VIP會員，免費下載

專利文獻下載

說明：

1、專利原文基于中國國家知識產權局專利說明書；

2、支持發明專利、實用新型專利、外觀設計專利（升級中）；

3、專利數據每周兩次同步更新，支持Adobe PDF格式；

4、內容包括專利技術的結構示意圖、流程工藝圖或技術構造圖；

5、已全新升級為極速版,下載速度顯著提升！歡迎使用！

請您登陸后，進行下載，點擊【登陸】【注冊】