[發(fā)明專利]一種數(shù)據(jù)表分析處理的方法和裝置有效
| 申請?zhí)枺?/td> | 201610042109.0 | 申請日: | 2016-01-21 |
| 公開(公告)號: | CN106991101B | 公開(公告)日: | 2021-02-02 |
| 發(fā)明(設(shè)計)人: | 王偉;潘旻;羅金鵬 | 申請(專利權(quán))人: | 阿里巴巴集團控股有限公司 |
| 主分類號: | G06F16/22 | 分類號: | G06F16/22;G06F16/28 |
| 代理公司: | 北京潤澤恒知識產(chǎn)權(quán)代理有限公司 11319 | 代理人: | 趙娟 |
| 地址: | 英屬開曼群島大開*** | 國省代碼: | 暫無信息 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 數(shù)據(jù)表 分析 處理 方法 裝置 | ||
本申請實施例提供了一種數(shù)據(jù)表分析處理的方法和裝置,所述數(shù)據(jù)表包括數(shù)據(jù)公共層的通用數(shù)據(jù)表,以及,非數(shù)據(jù)公共層的外部數(shù)據(jù)表,所述的方法包括:針對所述數(shù)據(jù)公共層的通用數(shù)據(jù)表計算加工成本數(shù)據(jù);確定所述非數(shù)據(jù)公共層的外部數(shù)據(jù)表所依賴的通用數(shù)據(jù)表;依據(jù)所述通用數(shù)據(jù)表的加工成本數(shù)據(jù),計算所述外部數(shù)據(jù)表的使用成本數(shù)據(jù),使得在對數(shù)據(jù)公共層的每一張通用數(shù)據(jù)表的成本進行評估時,不再是孤立地考慮當(dāng)前數(shù)據(jù)表的自身存儲、計算消耗,而會綜合考慮所述數(shù)據(jù)表的若干張上游數(shù)據(jù)表以及兄弟數(shù)據(jù)表,從而能夠合理、準(zhǔn)確的評估通用數(shù)據(jù)表的加工成本,以此反映出數(shù)據(jù)公共層的數(shù)據(jù)模型建設(shè)的優(yōu)劣,為數(shù)據(jù)公共層模型優(yōu)化與運營提供決策支持。
技術(shù)領(lǐng)域
本申請涉及大數(shù)據(jù)處理技術(shù)領(lǐng)域,特別是涉及一種數(shù)據(jù)表分析處理的方法和一種數(shù)據(jù)表分析處理的裝置。
背景技術(shù)
大數(shù)據(jù)時代的來臨,凸顯了海量數(shù)據(jù)存儲、計算、加工的需求,數(shù)據(jù)間的關(guān)聯(lián)與服務(wù)顯得尤為重要。這些海量的數(shù)據(jù)一般以結(jié)構(gòu)化或者半結(jié)構(gòu)化的形式保存在云計算集群中,比如:Hadoop,ODPS等。海量數(shù)據(jù)之間的關(guān)系通過存儲在云計算集群中的一張張數(shù)據(jù)表來組織和體現(xiàn),并且在不同公司,以及同一家公司內(nèi)部的不同業(yè)務(wù)部門之間形成互訪、流轉(zhuǎn)和交換,從而真正發(fā)揮大數(shù)據(jù)時代數(shù)據(jù)應(yīng)有的價值。
在云計算環(huán)境下成千上萬的數(shù)據(jù)表中,對于一些常用的數(shù)據(jù),通用的數(shù)據(jù),會進行統(tǒng)一加工和歸納,形成一些通用性強,復(fù)用性高,高度規(guī)范統(tǒng)一的數(shù)據(jù)表,組成數(shù)據(jù)公共層。一般而言,數(shù)據(jù)公共層的數(shù)據(jù)表是各個業(yè)務(wù)部門需要經(jīng)常使用的數(shù)據(jù)。
眾所周知,大數(shù)據(jù)時代數(shù)據(jù)的存儲、計算、管理、維護都需要消耗較高的軟硬件成本和人力成本,那么數(shù)據(jù)加工所帶來的成本耗費如何計量,以及數(shù)據(jù)使用中所需要的成本消耗如何評估已成為數(shù)據(jù)在互訪、流轉(zhuǎn)、交換的過程中面臨的重要且核心的問題。
已有技術(shù)中,對于數(shù)據(jù)表的加工成本僅僅通過數(shù)據(jù)加工過程中所消耗的計算性硬件資源(比如CPU的消耗、內(nèi)存消耗)及存儲性資源(存儲介質(zhì)的消耗)來計量,即只是孤立的分析當(dāng)前一張數(shù)據(jù)表在加工過程中產(chǎn)生的存儲消耗和計算消耗。對于數(shù)據(jù)表的使用成本也只是將被使用表的數(shù)據(jù)加工成本平均分?jǐn)偨o這張數(shù)據(jù)表的各個使用者,顯然也不夠公平及合理。這將必然導(dǎo)致已有技術(shù)中無論數(shù)據(jù)加工成本的計量還是數(shù)據(jù)使用成本計量都不夠準(zhǔn)確的問題,從而嚴(yán)重影響云計算環(huán)境中數(shù)據(jù)有效性的判斷,導(dǎo)致數(shù)據(jù)成本過高,以及,過多不必要的資源耗費。
發(fā)明內(nèi)容
鑒于上述問題,提出了本申請實施例以便提供一種克服上述問題或者至少部分地解決上述問題的一種數(shù)據(jù)表分析處理的方法和相應(yīng)的一種數(shù)據(jù)表分析處理的裝置。
為了解決上述問題,本申請公開了一種數(shù)據(jù)表分析處理的方法,所述數(shù)據(jù)表包括數(shù)據(jù)公共層的通用數(shù)據(jù)表,以及,非數(shù)據(jù)公共層的外部數(shù)據(jù)表,所述的方法包括:
針對所述數(shù)據(jù)公共層的通用數(shù)據(jù)表計算加工成本數(shù)據(jù);
確定所述非數(shù)據(jù)公共層的外部數(shù)據(jù)表所依賴的通用數(shù)據(jù)表;
依據(jù)所述通用數(shù)據(jù)表的加工成本數(shù)據(jù),計算所述外部數(shù)據(jù)表的使用成本數(shù)據(jù)。
可選地,所述針對所述數(shù)據(jù)公共層的通用數(shù)據(jù)表計算加工成本數(shù)據(jù)的步驟包括:
提取所述數(shù)據(jù)公共層的通用數(shù)據(jù)表的加工成本特征參數(shù);
采用所述加工成本特征參數(shù)計算所述通用數(shù)據(jù)表的加工成本數(shù)據(jù)。
可選地,所述加工成本特征參數(shù)包括第一掃描成本參數(shù),所述提取所述數(shù)據(jù)公共層的通用數(shù)據(jù)表的加工成本特征參數(shù)的子步驟進一步包括:
統(tǒng)計所述通用數(shù)據(jù)表所依賴的父表的數(shù)量;
獲取所述通用數(shù)據(jù)表對所述父表的掃描量;
統(tǒng)計所述父表下所有子表的數(shù)量;
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于阿里巴巴集團控股有限公司,未經(jīng)阿里巴巴集團控股有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201610042109.0/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 數(shù)據(jù)表儲存、修改、查詢和統(tǒng)計方法
- 一種基于關(guān)聯(lián)規(guī)則的數(shù)據(jù)表分類系統(tǒng)與方法
- 數(shù)據(jù)表儲存、修改、查詢和統(tǒng)計方法
- 一種數(shù)據(jù)識別方法及裝置
- 一種數(shù)據(jù)表切換方法及裝置
- 數(shù)據(jù)表的校驗方法及裝置、電子設(shè)備、存儲介質(zhì)
- 對數(shù)據(jù)集中的數(shù)據(jù)表進行抽樣和校驗的方法及裝置
- 主機中數(shù)據(jù)關(guān)聯(lián)訪問的方法和裝置
- 數(shù)據(jù)管理方法、裝置及服務(wù)器
- 數(shù)據(jù)處理方法、裝置、設(shè)備及計算機可讀存儲介質(zhì)





