[發明專利]一種大數據資產質量評估方法有效
| 申請號: | 201910366031.1 | 申請日: | 2019-04-30 |
| 公開(公告)號: | CN110070304B | 公開(公告)日: | 2023-06-27 |
| 發明(設計)人: | 楊忠勛 | 申請(專利權)人: | 深圳市乾數科技有限公司 |
| 主分類號: | G06Q10/0639 | 分類號: | G06Q10/0639 |
| 代理公司: | 深圳市中科創為專利代理有限公司 44384 | 代理人: | 彭西洋 |
| 地址: | 518000 廣東省深圳市南山區西麗*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 數據 資產 質量 評估 方法 | ||
1.一種大數據資產質量評估方法,其特征在于,包括以下步驟:
步驟S1:數據場景劃分,根據行業的業務特點或通用規則,將大數據劃分成若干個數據場景,記為CaseSetBL={C1,C2,C3…CN},N表示數據場景總數;
步驟S2:場景信息因子定義,定義各數據場景的信息因子,記為CaseFactorSet={θ1,θ2,θ3…θN},所述場景信息因子設置為數據場景在業務運行過程中發生概率及獲取難度的綜合系數;
步驟S3:數據基線配置定義,包括:定義數據源基線配置和定義數據性能基線配置;
步驟S4:數據有效指數計算:計算各數據場景有效數據規模及有效數據比例系數,通過有效數據比例系數和場景信息因子加權計算數據有效指數,
步驟S4具體包括:
a、數據樣本劃分:根據業務特點定義數據樣本的規格,根據數據樣本的規格,將各數據場景分別劃分為若干個數據樣本,總樣本數記為K;
b、數據源基礎配置評估:對于每個數據樣本i,處理如下:
根據數據樣本所包含的數據源集合DataItemSet和數據源基礎配置DataItemSetBL計算數據源基礎因子
如果則
否則:
其中,δ為數據源配置門限,取值0到1之間;
c、數據性能基礎配置評估
對于每個數據樣本,處理如下:
先根據DataPerfSetBL(d),d=1,2…D,判斷每個基礎數據源是否滿足數據性能基礎配置,得到計算第d個基礎數據源滿足性能基礎配置要求的個數,記為Xd;
計算所有基礎數據源滿足數據性能基礎配置要求的總個數:
計算所有基礎數據源的性能配置要求總數:
計算數據性能基礎因子(Base?Data?Performance?Factor):
如果
否則
其中,
ρ為數據基礎性能因子門限,取值0到1之間的效數;1.2為基礎數據性能因子門限最大保護值,可配置;
判斷每個性能相對基礎性能的滿足程度高低:
若中的某條性能要求與實際性能不一致,在的基礎上再乘以對應的性能補償系數μ:
μ的取值范圍在(0,2.0),2.0為補償系數的最大保護值,可配置;
每條性能的補償系數μ取決于該條數據性能對業務的重要程度高低;
d、樣本場景分類:
對于滿足數據源基礎配置和數據性能基礎配置的每個數據樣本,根據數據場景劃分,采用機器學習的方法進行場景歸類,得到每種場景下的數據樣本集合;假設在場景分類后,每個子場景的樣本個數為{K1,K2…KN},而對于無法分類的樣本,不做為數據質量評估的樣本;
e、子場景數據源和數據性能修正:
對每個場景分類后的樣本,按照子場景數據源配置進一步評估,得到則子場景數據源修正后的數據源因子為:
對每個場景分類后的樣本,按照子場景數據性能配置進一步評估,得到則子場景數據性能修正后的數據性能因子為:
f、數據有效規模估計:
計算每個子場景的有效數據規模:
首先初始化每個場景的數據有效規模:
Vn=0,n=,1,2...N
對于每個樣本i,如果它屬于子場景n,則:
Vn=Vn+DSFi*DPFi
g:數據有效指數估計:
對于待評估數據的所有數據場景,根據有效數據規模和數據場景信息因子,綜合計算出數據有效指數VI(Validity?Index):
首先,判斷子場景數據是否納入數據有效指數估計:
如果Vn小于門限ThdVI,則:
子場景n不納入數據有效指數計算,將Vn置為0;
其中:
門限ThdVI取絕對值門限,或取相對值門限:
對于絕對值門限:
將ThdVI設置為若干條有效數據規模;
對于相對門限:
設置為各子場景有效數據規模最大值的一定比例:
ThdVI=σ*max(V1,V2…VN)
σ表示可配置門限比例系數,取值為0到1之間的小數;
然后,計算參與計算的子場景有效數據比例系數γn
最后,將各子場景有效數據規模和數據場景信息因子加權得到有效數據指數:
θn為第n個子場景的數據場景信息因子;
步驟S5:數據多樣性指數計算:通過有效數據比例系數計算數據多樣性指數;
步驟S5中,數據多樣性指數記為DI(Diversity?Index):
根據各場景有效數據比例系數γn,通過線性運算計算數據多樣性指數DI:
或者采用其他非線性計算方法:
DI=z(γ1,γ2…γN);
步驟S6:數據質量指數計算:將所述數據有效指數和數據多樣性指數進行綜合計算得到數據質量指數。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于深圳市乾數科技有限公司,未經深圳市乾數科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910366031.1/1.html,轉載請聲明來源鉆瓜專利網。
- 同類專利
- 專利分類
G06Q 專門適用于行政、商業、金融、管理、監督或預測目的的數據處理系統或方法;其他類目不包含的專門適用于行政、商業、金融、管理、監督或預測目的的處理系統或方法
G06Q10-00 行政;管理
G06Q10-02 .預定,例如用于門票、服務或事件的
G06Q10-04 .預測或優化,例如線性規劃、“旅行商問題”或“下料問題”
G06Q10-06 .資源、工作流、人員或項目管理,例如組織、規劃、調度或分配時間、人員或機器資源;企業規劃;組織模型
G06Q10-08 .物流,例如倉儲、裝貨、配送或運輸;存貨或庫存管理,例如訂貨、采購或平衡訂單
G06Q10-10 .辦公自動化,例如電子郵件或群件的計算機輔助管理
- 數據顯示系統、數據中繼設備、數據中繼方法、數據系統、接收設備和數據讀取方法
- 數據記錄方法、數據記錄裝置、數據記錄媒體、數據重播方法和數據重播裝置
- 數據發送方法、數據發送系統、數據發送裝置以及數據結構
- 數據顯示系統、數據中繼設備、數據中繼方法及數據系統
- 數據嵌入裝置、數據嵌入方法、數據提取裝置及數據提取方法
- 數據管理裝置、數據編輯裝置、數據閱覽裝置、數據管理方法、數據編輯方法以及數據閱覽方法
- 數據發送和數據接收設備、數據發送和數據接收方法
- 數據發送裝置、數據接收裝置、數據收發系統、數據發送方法、數據接收方法和數據收發方法
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置





