[發明專利]一種利用數據結構控制數據準備過程的方法在審
| 申請號: | 201710561459.2 | 申請日: | 2017-07-11 |
| 公開(公告)號: | CN107451206A | 公開(公告)日: | 2017-12-08 |
| 發明(設計)人: | 賀俊華;傅玉生;王永波;鮮東 | 申請(專利權)人: | 成都優易數據有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 成都弘毅天承知識產權代理有限公司51230 | 代理人: | 徐金瓊,劉東 |
| 地址: | 611730 四川省成都市郫縣德源鎮(菁*** | 國省代碼: | 四川;51 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 利用 數據結構 控制 數據 準備 過程 方法 | ||
技術領域
本發明涉及數據轉化和業務映射過程控制的方法,特別是一種利用數據結構控制數據準備過程的方法。
背景技術
隨著信息技術的高速發展,人類社會產生的數據量越來越大。大數據不僅體現在數量上的龐大,還有涉及到的數據內容比較廣泛,數據格式的多樣化,以及計算過程的復雜性等,大數據分析能夠從海量的數據中提取出最有價值的信息,在知識發現領域具有關鍵性作用。
對海量的數據進行大數據分析,就需要根據數據分析業務的需求,對數據進行標準和有效的轉化。根據紐約時報對大數據科學的統計,數據準備在整個數據分析周期的時間消耗占比超過80%,因此,找到一種通用而且高效的數據準備方法就變得至關重要了。
目前數據分析領域的數據準備和業務分析兩個過程是非常獨立的,數據準備由精通數據處理的開發人員來完成,而業務分析主要是由精通業務的數據分析師來完成,導致在數據準備過程中,數據處理的開發人員不了解業務的需求,而數據分析師也不熟悉數據處理的開發技術,從而導致增加了溝通成本,降低工作效率。
發明內容
本發明的目的在于:針對上述現有數據轉化和業務分析過程相互獨立,從而導致數據準備過程中的重復工作、效率低下的問題,本發明提供一種利用數據結構控制數據準備過程的方法。
本發明采用的技術方案如下:
一種利用數據結構控制數據準備過程的方法,包括以下步驟:
S101,數據抽取流程:將數據源的數據文件,以數據接口的方式進行抽取,獲得源數據;獲取數據抽取流程中的配置信息,然后將數據抽取流程需要的配置信息進行結構化處理;
S102,數據概要分析流程:對步驟S101獲得的源數據進行概要分析,以保證源數據的合法性與合理性;并獲取數據概要分析流程中的配置信息,然后將數據概要分析流程的配置信息進行結構化處理;
S103,數據異常處理流程:對步驟S102概要分析后的數據進行異常處理,消除數據中的異常情況;獲取異常處理流程中的配置信息,然后將數據異常處理流程的配置信息進行結構化處理;
S104,數據清洗流程:對步驟S103異常處理后的數據進行清洗,以保證數據的有效性、提高數據質量;獲取數據清洗流程中的配置信息,然后將數據清洗流程的配置信息進行結構化處理;
S105,數據轉換流程:定義數據字段,將步驟S104中經過數據清洗后的數據按照已經定義好的數據字段進行轉換,獲得轉換后的數據字段;獲取數據轉換流程中的配置信息,然后將數據轉換流程的配置信息進行標準化處理;
S106,業務映射流程:將數據分析需要的業務指標、業務邏輯、運算過程映射到S105數據轉換完成后的數據字段上;
S107,數據準備輸出流程:定義數據準備輸出的結果數據、輸出配置信息,并對數據準備輸出的結果數據、輸出配置信息進行結構化處理;
S108,將S101,S102,S103,S104,S105,S106,S107流程的結構化配置信息封裝到數據結構中。
所述的一種利用數據結構控制數據準備過程的方法,步驟S101中進行數據抽取時,不同的數據接口使用不同的抽取技術和接口方式。
所述的一種利用數據結構控制數據準備過程的方法,步驟S102中數據概要分析的分析方法包括列分析、交叉列分析、表分析和交叉表分析四大類型,概要分析的具體的分析內容包括值域分析、基數分析、類型監測、數據分布、波動監測、異常值監測、功能相關性分析、主鍵唯一性分析、表基礎分析、外鍵分析和血緣分析。
所述的一種利用數據結構控制數據準備過程的方法,步驟S103數據異常處理流程中的數據異常包括句法異常、語義異常和覆蓋異常,不同的數據異常類型進行相應的異常處理。
所述的一種利用數據結構控制數據準備過程的方法,步驟S104中,數據清洗的內容包括數據審計、數據工作流規范、數據工作流執行和數據后加工與處理,數據清洗的方法包括數值修正、數據整形、數據邏輯優化和數據修復。
所述的一種利用數據結構控制數據準備過程的方法,步驟S105中,數據轉換流程中包括數字到數字的轉換,語義變量到數字的轉換、命題邏輯轉換、離散化、二值化和粒度轉換。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于成都優易數據有限公司,未經成都優易數據有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710561459.2/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:飼料分篩機
- 下一篇:一種便于更換篩網的珍珠篩選機
- 數據顯示系統、數據中繼設備、數據中繼方法、數據系統、接收設備和數據讀取方法
- 數據記錄方法、數據記錄裝置、數據記錄媒體、數據重播方法和數據重播裝置
- 數據發送方法、數據發送系統、數據發送裝置以及數據結構
- 數據顯示系統、數據中繼設備、數據中繼方法及數據系統
- 數據嵌入裝置、數據嵌入方法、數據提取裝置及數據提取方法
- 數據管理裝置、數據編輯裝置、數據閱覽裝置、數據管理方法、數據編輯方法以及數據閱覽方法
- 數據發送和數據接收設備、數據發送和數據接收方法
- 數據發送裝置、數據接收裝置、數據收發系統、數據發送方法、數據接收方法和數據收發方法
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置





