[發(fā)明專利]一種分布式架構(gòu)的特征自動生成方法和系統(tǒng)在審
| 申請?zhí)枺?/td> | 202011283601.X | 申請日: | 2020-11-17 |
| 公開(公告)號: | CN112380205A | 公開(公告)日: | 2021-02-19 |
| 發(fā)明(設(shè)計(jì))人: | 楊帆;周楚杰;黃馨 | 申請(專利權(quán))人: | 北京融七牛信息技術(shù)有限公司 |
| 主分類號: | G06F16/215 | 分類號: | G06F16/215;G06F16/22;G06F16/27 |
| 代理公司: | 北京山允知識產(chǎn)權(quán)代理事務(wù)所(特殊普通合伙) 11741 | 代理人: | 胡冰 |
| 地址: | 100043 北京市石景山區(qū)*** | 國省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 分布式 架構(gòu) 特征 自動 生成 方法 系統(tǒng) | ||
本發(fā)明涉及一種分布式架構(gòu)的特征自動生成方法,包括:S1,從數(shù)據(jù)庫中抽取樣本對應(yīng)的數(shù)據(jù),每張表存儲為一張新的數(shù)據(jù)表;S2,對抽取的數(shù)據(jù)進(jìn)行清洗加工;S3,將數(shù)據(jù)表進(jìn)行分區(qū),使得歸屬同一個(gè)樣本的所有數(shù)據(jù)都存放到同一個(gè)分區(qū)中;S4,采用分布式計(jì)算引擎對數(shù)據(jù)進(jìn)行特征生成;S5,將每個(gè)子節(jié)點(diǎn)生成的特征數(shù)據(jù)文件進(jìn)行合并,合成一個(gè)完整的特征數(shù)據(jù)文件。本發(fā)明還對應(yīng)提出了一種分布式架構(gòu)的特征自動生成系統(tǒng)。本發(fā)明實(shí)現(xiàn)了一種針對特征自動生成算法的分布式架構(gòu),能夠應(yīng)用分布式計(jì)算高效率的進(jìn)行特征自動生成,能夠進(jìn)行大數(shù)據(jù)處理,保證了特征的高效生成。
技術(shù)領(lǐng)域
本發(fā)明涉及機(jī)器學(xué)習(xí)技術(shù)領(lǐng)域,更具體地,涉及一種分布式架構(gòu)的特征自動生成方法和系統(tǒng)。
背景技術(shù)
隨著大數(shù)據(jù)人工智能技術(shù)的普及,通過機(jī)器學(xué)習(xí)算法進(jìn)行數(shù)據(jù)分析處理的方法逐步被各個(gè)行業(yè)的工程人員所采用。同時(shí),為了應(yīng)對日益增長的大數(shù)據(jù)處理需要,分布式計(jì)算已經(jīng)被廣泛應(yīng)用到數(shù)據(jù)處理與計(jì)算中。
機(jī)器學(xué)習(xí)算法的輸入數(shù)據(jù)被稱為特征,是通過一系列工程方法將原始數(shù)據(jù)加工而成的。目前,特征生成方法有如下幾種:
1)人工特征生成:技術(shù)人員經(jīng)過底層數(shù)據(jù)的清洗,篩選,特征邏輯的設(shè)計(jì),開發(fā)特征計(jì)算代碼等過程。需要花費(fèi)技術(shù)人員大量的時(shí)間,效率很低。尤其是需要對大數(shù)據(jù)進(jìn)行加工處理時(shí),需要根據(jù)處理方法針對性的設(shè)計(jì)分布式處理架構(gòu),此時(shí)依賴于技術(shù)人員的處理經(jīng)驗(yàn)與工程能力。
2)半自動特征生成:現(xiàn)有的機(jī)器學(xué)習(xí)平臺,可基于圖形界面的交互方式來完成特征生成流程。流程主要為:技術(shù)人員指定特征生成邏輯,并手動輸入到平臺中,平臺根據(jù)用戶指定特征生成邏輯進(jìn)行計(jì)算,生成特征。該方法依賴于技術(shù)人員的特征開發(fā)經(jīng)驗(yàn),無法對非專業(yè)人員使用,并且在需要生成大量特征時(shí),效率較低。
3)自動特征生成:自動特征生成是將特征生成的邏輯進(jìn)行抽象、實(shí)現(xiàn)后固定下來,用于自動處理數(shù)據(jù)生成特征的一種方法。自動特征生成一般不依賴于使用人員的技術(shù)能力與業(yè)務(wù)經(jīng)驗(yàn),是一種更加智能化、高效率、低門檻的特征生成方法。但是目前自動特征生成算法仍不成熟,尤其在大數(shù)據(jù)處理的實(shí)際情況下,還沒有可靠的分布式計(jì)算方法。
發(fā)明內(nèi)容
針對背景技術(shù)中的問題,本發(fā)明的明目的是:自動對原始數(shù)據(jù)進(jìn)行處理分析,生成正確的有效的特征。對于非專業(yè)技術(shù)人員,可以通過本發(fā)明的系統(tǒng)方便快捷的生成供模型建模使用的特征變量。對于專業(yè)技術(shù)人員,可以通過本發(fā)明的系統(tǒng)快速測試、分析或迭代特征。
本發(fā)明提出一種分布式架構(gòu)的特征自動生成方法,包括:S1,從數(shù)據(jù)庫中抽取樣本對應(yīng)的數(shù)據(jù),每張表存儲為一張新的數(shù)據(jù)表;S2,對抽取的數(shù)據(jù)進(jìn)行清洗加工;S3,將數(shù)據(jù)表進(jìn)行分區(qū),使得歸屬同一個(gè)樣本的所有數(shù)據(jù)都存放到同一個(gè)分區(qū)中;S4,采用分布式計(jì)算引擎對數(shù)據(jù)進(jìn)行特征生成;S5,將生成的特征數(shù)據(jù)文件進(jìn)行合并,合成一個(gè)完整的特征數(shù)據(jù)文件。
本發(fā)明還提出一種分布式架構(gòu)的特征自動生成系統(tǒng),包括:數(shù)據(jù)抽取單元,從數(shù)據(jù)庫中抽取樣本對應(yīng)的數(shù)據(jù),每張表存儲為一張新的數(shù)據(jù)表;數(shù)據(jù)加工單元,對抽取的數(shù)據(jù)進(jìn)行清洗加工;數(shù)據(jù)分區(qū)單元,將數(shù)據(jù)表進(jìn)行分區(qū),使得歸屬同一個(gè)樣本的所有數(shù)據(jù)都存放到同一個(gè)分區(qū)中;特征生成單元,為分布式計(jì)算引擎,對數(shù)據(jù)進(jìn)行特征生成;特征合并單元,將特征生成單元生成的特征數(shù)據(jù)文件進(jìn)行合并,合成一個(gè)完整的特征數(shù)據(jù)文件。
與現(xiàn)有技術(shù)相比,本發(fā)明的優(yōu)點(diǎn)有:
(1)實(shí)現(xiàn)了一種針對特征自動生成算法的分布式架構(gòu),能夠應(yīng)用分布式計(jì)算高效率的進(jìn)行特征自動生成,能夠進(jìn)行大數(shù)據(jù)處理,保證了特征的高效生成。
(2)該架構(gòu)解決了分布式計(jì)算場景下特征自動生成需要保證的特征一致性問題,滿足并行生成特征。
附圖說明
為了更容易理解本發(fā)明,將通過參照附圖中示出的具體實(shí)施方式更詳細(xì)地描述本發(fā)明。這些附圖只描繪了本發(fā)明的典型實(shí)施方式,不應(yīng)認(rèn)為對本發(fā)明保護(hù)范圍的限制。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于北京融七牛信息技術(shù)有限公司,未經(jīng)北京融七牛信息技術(shù)有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011283601.X/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。





