[發(fā)明專利]一種分布式架構(gòu)的特征自動生成方法和系統(tǒng)在審

申請?zhí)枺?/td>	202011283601.X	申請日：	2020-11-17
公開（公告）號：	CN112380205A	公開（公告）日：	2021-02-19
發(fā)明（設(shè)計(jì)）人：	楊帆;周楚杰;黃馨	申請（專利權(quán)）人：	北京融七牛信息技術(shù)有限公司
主分類號：	G06F16/215	分類號：	G06F16/215;G06F16/22;G06F16/27
代理公司：	北京山允知識產(chǎn)權(quán)代理事務(wù)所(特殊普通合伙) 11741	代理人：	胡冰
地址：	100043 北京市石景山區(qū)***	國省代碼：	北京;11
權(quán)利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關(guān)鍵詞：	一種分布式架構(gòu) 特征自動生成方法系統(tǒng)
鉆瓜網(wǎng) 技術(shù)展會專利詞庫專利權(quán)人專利榜在售專利公布日期熱門專利

【說明書】：

本發(fā)明涉及一種分布式架構(gòu)的特征自動生成方法，包括：S1，從數(shù)據(jù)庫中抽取樣本對應(yīng)的數(shù)據(jù)，每張表存儲為一張新的數(shù)據(jù)表；S2，對抽取的數(shù)據(jù)進(jìn)行清洗加工；S3，將數(shù)據(jù)表進(jìn)行分區(qū)，使得歸屬同一個(gè)樣本的所有數(shù)據(jù)都存放到同一個(gè)分區(qū)中；S4，采用分布式計(jì)算引擎對數(shù)據(jù)進(jìn)行特征生成；S5，將每個(gè)子節(jié)點(diǎn)生成的特征數(shù)據(jù)文件進(jìn)行合并，合成一個(gè)完整的特征數(shù)據(jù)文件。本發(fā)明還對應(yīng)提出了一種分布式架構(gòu)的特征自動生成系統(tǒng)。本發(fā)明實(shí)現(xiàn)了一種針對特征自動生成算法的分布式架構(gòu)，能夠應(yīng)用分布式計(jì)算高效率的進(jìn)行特征自動生成，能夠進(jìn)行大數(shù)據(jù)處理，保證了特征的高效生成。

技術(shù)領(lǐng)域

本發(fā)明涉及機(jī)器學(xué)習(xí)技術(shù)領(lǐng)域，更具體地，涉及一種分布式架構(gòu)的特征自動生成方法和系統(tǒng)。

背景技術(shù)

隨著大數(shù)據(jù)人工智能技術(shù)的普及，通過機(jī)器學(xué)習(xí)算法進(jìn)行數(shù)據(jù)分析處理的方法逐步被各個(gè)行業(yè)的工程人員所采用。同時(shí)，為了應(yīng)對日益增長的大數(shù)據(jù)處理需要，分布式計(jì)算已經(jīng)被廣泛應(yīng)用到數(shù)據(jù)處理與計(jì)算中。

機(jī)器學(xué)習(xí)算法的輸入數(shù)據(jù)被稱為特征，是通過一系列工程方法將原始數(shù)據(jù)加工而成的。目前，特征生成方法有如下幾種：

1)人工特征生成：技術(shù)人員經(jīng)過底層數(shù)據(jù)的清洗，篩選，特征邏輯的設(shè)計(jì)，開發(fā)特征計(jì)算代碼等過程。需要花費(fèi)技術(shù)人員大量的時(shí)間，效率很低。尤其是需要對大數(shù)據(jù)進(jìn)行加工處理時(shí)，需要根據(jù)處理方法針對性的設(shè)計(jì)分布式處理架構(gòu)，此時(shí)依賴于技術(shù)人員的處理經(jīng)驗(yàn)與工程能力。

2)半自動特征生成：現(xiàn)有的機(jī)器學(xué)習(xí)平臺，可基于圖形界面的交互方式來完成特征生成流程。流程主要為：技術(shù)人員指定特征生成邏輯，并手動輸入到平臺中，平臺根據(jù)用戶指定特征生成邏輯進(jìn)行計(jì)算，生成特征。該方法依賴于技術(shù)人員的特征開發(fā)經(jīng)驗(yàn)，無法對非專業(yè)人員使用，并且在需要生成大量特征時(shí)，效率較低。

3)自動特征生成：自動特征生成是將特征生成的邏輯進(jìn)行抽象、實(shí)現(xiàn)后固定下來，用于自動處理數(shù)據(jù)生成特征的一種方法。自動特征生成一般不依賴于使用人員的技術(shù)能力與業(yè)務(wù)經(jīng)驗(yàn)，是一種更加智能化、高效率、低門檻的特征生成方法。但是目前自動特征生成算法仍不成熟，尤其在大數(shù)據(jù)處理的實(shí)際情況下，還沒有可靠的分布式計(jì)算方法。

發(fā)明內(nèi)容

針對背景技術(shù)中的問題，本發(fā)明的明目的是：自動對原始數(shù)據(jù)進(jìn)行處理分析，生成正確的有效的特征。對于非專業(yè)技術(shù)人員，可以通過本發(fā)明的系統(tǒng)方便快捷的生成供模型建模使用的特征變量。對于專業(yè)技術(shù)人員，可以通過本發(fā)明的系統(tǒng)快速測試、分析或迭代特征。

本發(fā)明提出一種分布式架構(gòu)的特征自動生成方法，包括：S1，從數(shù)據(jù)庫中抽取樣本對應(yīng)的數(shù)據(jù)，每張表存儲為一張新的數(shù)據(jù)表；S2，對抽取的數(shù)據(jù)進(jìn)行清洗加工；S3，將數(shù)據(jù)表進(jìn)行分區(qū)，使得歸屬同一個(gè)樣本的所有數(shù)據(jù)都存放到同一個(gè)分區(qū)中；S4，采用分布式計(jì)算引擎對數(shù)據(jù)進(jìn)行特征生成；S5，將生成的特征數(shù)據(jù)文件進(jìn)行合并，合成一個(gè)完整的特征數(shù)據(jù)文件。

本發(fā)明還提出一種分布式架構(gòu)的特征自動生成系統(tǒng)，包括：數(shù)據(jù)抽取單元，從數(shù)據(jù)庫中抽取樣本對應(yīng)的數(shù)據(jù)，每張表存儲為一張新的數(shù)據(jù)表；數(shù)據(jù)加工單元，對抽取的數(shù)據(jù)進(jìn)行清洗加工；數(shù)據(jù)分區(qū)單元，將數(shù)據(jù)表進(jìn)行分區(qū)，使得歸屬同一個(gè)樣本的所有數(shù)據(jù)都存放到同一個(gè)分區(qū)中；特征生成單元，為分布式計(jì)算引擎，對數(shù)據(jù)進(jìn)行特征生成；特征合并單元，將特征生成單元生成的特征數(shù)據(jù)文件進(jìn)行合并，合成一個(gè)完整的特征數(shù)據(jù)文件。

與現(xiàn)有技術(shù)相比，本發(fā)明的優(yōu)點(diǎn)有：

(1)實(shí)現(xiàn)了一種針對特征自動生成算法的分布式架構(gòu)，能夠應(yīng)用分布式計(jì)算高效率的進(jìn)行特征自動生成，能夠進(jìn)行大數(shù)據(jù)處理，保證了特征的高效生成。

(2)該架構(gòu)解決了分布式計(jì)算場景下特征自動生成需要保證的特征一致性問題，滿足并行生成特征。

附圖說明

為了更容易理解本發(fā)明，將通過參照附圖中示出的具體實(shí)施方式更詳細(xì)地描述本發(fā)明。這些附圖只描繪了本發(fā)明的典型實(shí)施方式，不應(yīng)認(rèn)為對本發(fā)明保護(hù)范圍的限制。

下載完整專利技術(shù)內(nèi)容需要扣除積分，VIP會員可以免費(fèi)下載。

免登錄下載普通用戶下載升級VIP會員，免費(fèi)下載

該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息，商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于北京融七牛信息技術(shù)有限公司，未經(jīng)北京融七牛信息技術(shù)有限公司許可，擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作，請聯(lián)系【客服】

本文鏈接：http://www.szxzyx.cn/pat/books/202011283601.X/2.html，轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。

同類專利

專利分類

G 物理

G06 計(jì)算；推算；計(jì)數(shù)
G06F 電數(shù)字?jǐn)?shù)據(jù)處理

免登錄下載普通用戶下載升級VIP會員，免費(fèi)下載

專利文獻(xiàn)下載

說明：

1、專利原文基于中國國家知識產(chǎn)權(quán)局專利說明書；

2、支持發(fā)明專利、實(shí)用新型專利、外觀設(shè)計(jì)專利（升級中）；

3、專利數(shù)據(jù)每周兩次同步更新，支持Adobe PDF格式；

4、內(nèi)容包括專利技術(shù)的結(jié)構(gòu)示意圖、流程工藝圖或技術(shù)構(gòu)造圖；

5、已全新升級為極速版,下載速度顯著提升！歡迎使用！

請您登陸后，進(jìn)行下載，點(diǎn)擊【登陸】【注冊】