[發(fā)明專利]一種基于元數(shù)據(jù)的特征數(shù)據(jù)集自動生成方法及裝置有效
| 申請?zhí)枺?/td> | 201710742328.4 | 申請日: | 2017-08-25 |
| 公開(公告)號: | CN107729349B | 公開(公告)日: | 2022-06-07 |
| 發(fā)明(設(shè)計)人: | 田春華;張浩;魏昕路;蔣綿 | 申請(專利權(quán))人: | 昆侖智匯數(shù)據(jù)科技(北京)有限公司 |
| 主分類號: | G06F16/25 | 分類號: | G06F16/25;G06F16/2458;G06F16/907 |
| 代理公司: | 北京潤捷智誠知識產(chǎn)權(quán)代理事務(wù)所(普通合伙) 11831 | 代理人: | 孫巍 |
| 地址: | 100089 北京市海淀*** | 國省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 數(shù)據(jù) 特征 自動 生成 方法 裝置 | ||
本發(fā)明提供一種基于元數(shù)據(jù)的特征數(shù)據(jù)集自動生成方法及裝置,所述特征數(shù)據(jù)集自動生成方法包括以下步驟:S11,對元數(shù)據(jù)模型和目標(biāo)對象進(jìn)行解析;S12,根據(jù)解析后的元數(shù)據(jù)模型和目標(biāo)對象構(gòu)建關(guān)聯(lián)路徑樹;S13,將算子庫插入所述關(guān)聯(lián)路徑樹構(gòu)建關(guān)聯(lián)語法樹;S14,將實例數(shù)據(jù)填入所述關(guān)聯(lián)語法樹,以生成實例數(shù)據(jù)關(guān)聯(lián)語法樹;S15,將所述實例數(shù)據(jù)關(guān)聯(lián)語法樹中的特征數(shù)據(jù)集抽取出來,以得到所述特征數(shù)據(jù)集。本發(fā)明的基于元數(shù)據(jù)的特征數(shù)據(jù)集自動生成方法及裝置能夠處理多個關(guān)聯(lián)關(guān)系,并且本發(fā)明的基于元數(shù)據(jù)的特征數(shù)據(jù)集自動生成方法及裝置具有非侵入式特性。
技術(shù)領(lǐng)域
本發(fā)明涉及數(shù)據(jù)處理技術(shù)領(lǐng)域,尤其涉及一種基于元數(shù)據(jù)的特征數(shù)據(jù)集自動生成方法及裝置。
背景技術(shù)
特征變量是很多數(shù)據(jù)挖掘問題成功的關(guān)鍵因素。在現(xiàn)有技術(shù)中,一般通過人工加工和深度學(xué)習(xí)生成特征變量。人工加工具有以下缺陷:根據(jù)對數(shù)據(jù)和問題的了解,手動變成加工特征,工作量通常占數(shù)據(jù)分析項目40~50%的時間;深度學(xué)習(xí)具有以下缺陷:針對圖像、時間序列等結(jié)構(gòu)化數(shù)據(jù),自動構(gòu)建層次化特征,但深度學(xué)習(xí)不能作用與多個數(shù)據(jù)對象,針對圖像和時間序列也是僅僅考慮空間/時序近鄰過程而加工特征。
元數(shù)據(jù)(Metadata),又稱中介數(shù)據(jù)、中繼數(shù)據(jù),為描述數(shù)據(jù)的數(shù)據(jù)(data aboutdata),主要是描述數(shù)據(jù)屬性(property)的信息,用來支持如指示存儲位置、歷史數(shù)據(jù)、資源查找、文件記錄等功能。元數(shù)據(jù)算是一種電子式目錄,為了達(dá)到編制目錄的目的,必須在描述并收藏數(shù)據(jù)的內(nèi)容或特色,進(jìn)而達(dá)成協(xié)助數(shù)據(jù)檢索的目的。
元數(shù)據(jù)是數(shù)據(jù)的數(shù)據(jù),具體指描述數(shù)據(jù)及其環(huán)境的數(shù)據(jù)。
元數(shù)據(jù)模型以反映信息結(jié)構(gòu)的某種形式對數(shù)據(jù)組織描述,其指明元數(shù)據(jù)的屬性、結(jié)構(gòu)和內(nèi)在關(guān)系。
元數(shù)據(jù)管理系統(tǒng)為大數(shù)據(jù)平臺繪制數(shù)據(jù)地圖、統(tǒng)一數(shù)據(jù)口徑、標(biāo)明數(shù)據(jù)方位、分析數(shù)據(jù)關(guān)系、管理模型變更及精確到字段級別的影響分析。打通上下游數(shù)據(jù)繼承關(guān)系斷層,為數(shù)據(jù)質(zhì)量維護(hù)和業(yè)務(wù)邏輯可視化打下堅實基礎(chǔ)。
非侵入式技術(shù)體現(xiàn)為:允許在應(yīng)用系統(tǒng)中自由選擇和組裝Spring框架的各個功能模塊,并且不強(qiáng)制要求應(yīng)用系統(tǒng)的類必須從Spring框架的系統(tǒng)API的某個類來繼承或者實現(xiàn)某個接口。
現(xiàn)有技術(shù)中,專利申請?zhí)枮镃N200510067375.0,專利名稱為“目標(biāo)變量的自動數(shù)據(jù)透視生成”,該專利處理數(shù)據(jù)倉庫透視圖的自動生成問題,它確定并分析對給定目標(biāo)變量的最佳目標(biāo)變量預(yù)測符,利用它們來便于將有關(guān)目標(biāo)變量的信息傳遞給用戶,該發(fā)明自動離散化用作目標(biāo)變量預(yù)測符的連續(xù)的和離散的變量,以建立它們的粒度(Granularity),并加強(qiáng)對用戶的信息傳遞。沒有解決數(shù)據(jù)挖掘中通過原始變量生成特征變量的問題。
因此,需要一種能夠處理多個關(guān)聯(lián)關(guān)系且具有非侵入式特性的基于元數(shù)據(jù)的特征數(shù)據(jù)集自動生成方法及裝置。
發(fā)明內(nèi)容
本發(fā)明的一個方面,提供了一種基于元數(shù)據(jù)的特征數(shù)據(jù)集自動生成方法,包括以下步驟:
S11,對元數(shù)據(jù)模型和目標(biāo)對象進(jìn)行解析;
S12,根據(jù)解析后的元數(shù)據(jù)模型和目標(biāo)對象構(gòu)建關(guān)聯(lián)路徑樹;
S13,將算子庫插入關(guān)聯(lián)路徑樹構(gòu)建關(guān)聯(lián)語法樹;
S14,將實例數(shù)據(jù)填入關(guān)聯(lián)語法樹,以生成實例數(shù)據(jù)關(guān)聯(lián)語法樹;
S15,將實例數(shù)據(jù)關(guān)聯(lián)語法樹中的特征數(shù)據(jù)集抽取出來,以得到特征數(shù)據(jù)集。
在步驟S11中,元數(shù)據(jù)模型包括數(shù)據(jù)對象、數(shù)據(jù)對象之間的關(guān)系和數(shù)據(jù)對象內(nèi)部數(shù)據(jù)記錄之間的關(guān)系。
數(shù)據(jù)對象之間的關(guān)系包括主鍵關(guān)系和關(guān)聯(lián)關(guān)系,關(guān)聯(lián)關(guān)系包括1:1、1:n、n:1、1:{0…n}的關(guān)系。
數(shù)據(jù)對象內(nèi)部數(shù)據(jù)記錄之間的關(guān)系包括獨(dú)立關(guān)系、序關(guān)系和層次關(guān)系。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于昆侖智匯數(shù)據(jù)科技(北京)有限公司,未經(jīng)昆侖智匯數(shù)據(jù)科技(北京)有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710742328.4/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 數(shù)據(jù)顯示系統(tǒng)、數(shù)據(jù)中繼設(shè)備、數(shù)據(jù)中繼方法、數(shù)據(jù)系統(tǒng)、接收設(shè)備和數(shù)據(jù)讀取方法
- 數(shù)據(jù)記錄方法、數(shù)據(jù)記錄裝置、數(shù)據(jù)記錄媒體、數(shù)據(jù)重播方法和數(shù)據(jù)重播裝置
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)發(fā)送系統(tǒng)、數(shù)據(jù)發(fā)送裝置以及數(shù)據(jù)結(jié)構(gòu)
- 數(shù)據(jù)顯示系統(tǒng)、數(shù)據(jù)中繼設(shè)備、數(shù)據(jù)中繼方法及數(shù)據(jù)系統(tǒng)
- 數(shù)據(jù)嵌入裝置、數(shù)據(jù)嵌入方法、數(shù)據(jù)提取裝置及數(shù)據(jù)提取方法
- 數(shù)據(jù)管理裝置、數(shù)據(jù)編輯裝置、數(shù)據(jù)閱覽裝置、數(shù)據(jù)管理方法、數(shù)據(jù)編輯方法以及數(shù)據(jù)閱覽方法
- 數(shù)據(jù)發(fā)送和數(shù)據(jù)接收設(shè)備、數(shù)據(jù)發(fā)送和數(shù)據(jù)接收方法
- 數(shù)據(jù)發(fā)送裝置、數(shù)據(jù)接收裝置、數(shù)據(jù)收發(fā)系統(tǒng)、數(shù)據(jù)發(fā)送方法、數(shù)據(jù)接收方法和數(shù)據(jù)收發(fā)方法
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)再現(xiàn)方法、數(shù)據(jù)發(fā)送裝置及數(shù)據(jù)再現(xiàn)裝置
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)再現(xiàn)方法、數(shù)據(jù)發(fā)送裝置及數(shù)據(jù)再現(xiàn)裝置





