[發(fā)明專利]數(shù)據(jù)處理方法、軟件和數(shù)據(jù)處理系統(tǒng)有效
| 申請?zhí)枺?/td> | 200810093033.X | 申請日: | 2004-09-15 |
| 公開(公告)號: | CN101271471A | 公開(公告)日: | 2008-09-24 |
| 發(fā)明(設(shè)計)人: | 喬爾·古爾德;卡爾·范曼;保羅·貝 | 申請(專利權(quán))人: | AB開元軟件公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 隆天國際知識產(chǎn)權(quán)代理有限公司 | 代理人: | 鄭小軍 |
| 地址: | 美國馬*** | 國省代碼: | 美國;US |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 數(shù)據(jù)處理 方法 軟件 數(shù)據(jù)處理系統(tǒng) | ||
本申請是申請日為2004年9月15、申請?zhí)枮?00480026429.2、發(fā)明名稱為“數(shù)據(jù)歸檔”的發(fā)明專利申請的分案申請。
相關(guān)申請的參照
本申請要求2003年9月15日提交的No.60/502,908、2003年10月20遞交的No.60/513,038以及2003年12月22日遞交的No.60/532,956的美國臨時申請的權(quán)益。上述引用的申請通過參考援引在此。
技術(shù)領(lǐng)域
本發(fā)明涉及數(shù)據(jù)歸檔(profiling)。
背景技術(shù)
存儲的數(shù)據(jù)集經(jīng)常包括事先未知各種特性的數(shù)據(jù)。例如,數(shù)據(jù)集的值或一般值的范圍,在數(shù)據(jù)集內(nèi)不同字段之間的關(guān)系,或在不同字段中的值之間的函數(shù)依賴性可能是未知的。數(shù)據(jù)歸檔會涉及到檢查數(shù)據(jù)集的源,以確定這些特性。數(shù)據(jù)歸檔系統(tǒng)的用途之一是收集有關(guān)數(shù)據(jù)集的信息,然后該信息用于設(shè)計集結(jié)區(qū)(staging?area),以便在進(jìn)一步處理之前裝載數(shù)據(jù)集。然后,基于在數(shù)據(jù)歸檔過程中收集的信息,在集結(jié)區(qū)中進(jìn)行將數(shù)據(jù)集映射到希望的目標(biāo)格式和位置所需的轉(zhuǎn)換。這種轉(zhuǎn)換可能是必要的,例如,使第三方數(shù)據(jù)與已有數(shù)據(jù)存儲器兼容,或者將數(shù)據(jù)從原來的計算機系統(tǒng)轉(zhuǎn)移到新的計算機系統(tǒng)。
發(fā)明內(nèi)容
一般而言,在一個方案中,本發(fā)明的特征是方法、對應(yīng)的軟件以及數(shù)據(jù)處理系統(tǒng)。將來自數(shù)據(jù)源的數(shù)據(jù)歸檔。此歸檔包括從數(shù)據(jù)源讀取數(shù)據(jù),在讀取數(shù)據(jù)時計算用以描述數(shù)據(jù)特性的概述數(shù)據(jù),以及存儲基于概述數(shù)據(jù)的歸檔信息。然后,處理來自數(shù)據(jù)源的數(shù)據(jù)。此處理包括訪問所存儲的歸檔信息和根據(jù)訪問的歸檔信息處理數(shù)據(jù)。
一般而言,在另一個方案中,本發(fā)明的特征是數(shù)據(jù)處理方法。將來自數(shù)據(jù)源的數(shù)據(jù)歸檔。此歸檔包括從數(shù)據(jù)源讀取數(shù)據(jù),在讀取數(shù)據(jù)時計算用以描述數(shù)據(jù)特性的概述數(shù)據(jù),以及存儲基于概述數(shù)據(jù)的歸檔信息。數(shù)據(jù)歸檔包括以并行方式歸檔數(shù)據(jù),這包括將數(shù)據(jù)分割成多個部分,并使用第一組并行組件中分開的一些組件處理這些部分。
本發(fā)明的方案可以包括一個或多個以下特征。
對來自數(shù)據(jù)源的數(shù)據(jù)的處理包括從數(shù)據(jù)源讀取數(shù)據(jù)。
在進(jìn)行數(shù)據(jù)歸檔時,不保留數(shù)據(jù)源外的數(shù)據(jù)的副本。例如,數(shù)據(jù)可包括具有可變記錄結(jié)構(gòu)(例如條件字段和可變數(shù)目的字段)的記錄。在讀取數(shù)據(jù)時對概述數(shù)據(jù)的計算包括在計算用以描述數(shù)據(jù)特性的概述數(shù)據(jù)時對可變記錄結(jié)構(gòu)記錄作出解釋。
數(shù)據(jù)源包括數(shù)據(jù)存儲系統(tǒng),例如數(shù)據(jù)庫系統(tǒng)、或串行或并行文件系統(tǒng)。
對概述數(shù)據(jù)的計算包括對字段的一組相異值中的每個值的出現(xiàn)次數(shù)進(jìn)行計數(shù)。歸檔信息可以包括基于對所述字段計算的出現(xiàn)次數(shù)得到的該字段的統(tǒng)計數(shù)字。
對包含與數(shù)據(jù)源相關(guān)的元數(shù)據(jù)的元數(shù)據(jù)存儲器進(jìn)行維護(hù)。對歸檔信息的存儲可包括更新與數(shù)據(jù)源相關(guān)的元數(shù)據(jù)。對數(shù)據(jù)的歸檔和對數(shù)據(jù)的處理均可以利用數(shù)據(jù)源的元數(shù)據(jù)。
對來自數(shù)據(jù)源的數(shù)據(jù)的歸檔還包括基于歸檔信息確定格式規(guī)范。也可包括基于歸檔信息確定有效性規(guī)范。在數(shù)據(jù)處理期間,可以基于格式規(guī)范和/或有效性規(guī)范識別無效記錄。
基于歸檔信息指定數(shù)據(jù)轉(zhuǎn)換指令。然后,對數(shù)據(jù)的處理可以包括將轉(zhuǎn)換指令應(yīng)用于數(shù)據(jù)。
對數(shù)據(jù)的處理包括將數(shù)據(jù)輸入到數(shù)據(jù)存儲子系統(tǒng)。在將數(shù)據(jù)輸入數(shù)據(jù)存儲子系統(tǒng)之前,可以將數(shù)據(jù)進(jìn)行驗證。這種數(shù)據(jù)驗證可以包括例如通過比較數(shù)據(jù)的統(tǒng)計屬性將數(shù)據(jù)的特性與數(shù)據(jù)的基準(zhǔn)特性相比較。
對數(shù)據(jù)的歸檔可以以并行方式進(jìn)行。這可以包括將數(shù)據(jù)分割成多個部分,并使用第一組并行組件中分開的一些組件處理這些部分。對不同數(shù)據(jù)字段的概述數(shù)據(jù)的計算可以包括使用第二組并行組件中分開的一些組件。第一組并行組件的輸出可以被重新分割,以形成第二組并行組件的輸入。數(shù)據(jù)可以從并行數(shù)據(jù)源讀取,該并行的數(shù)據(jù)源的每個部分由第一組并行組件中不同的一個并行組件處理。
一般而言,在另一個方案中,本發(fā)明的特征是方法、對應(yīng)的軟件以及數(shù)據(jù)處理系統(tǒng)。接受用以描述第一數(shù)據(jù)源的記錄中第一字段的值的特性的信息和用以描述第二數(shù)據(jù)源的記錄中第二字段的值的特性的信息。然后,基于所接受的信息,計算用以描述第一字段與第二字段之間的關(guān)系的特性的參量。呈現(xiàn)與第一字段和第二字段有關(guān)的信息。
本發(fā)明的方案可以包括一個或多個以下特征。
將與第一字段和第二字段有關(guān)的信息呈現(xiàn)給用戶。
第一數(shù)據(jù)源和第二數(shù)據(jù)源可以是同一個數(shù)據(jù)源,或者是分開的數(shù)據(jù)源。所述數(shù)據(jù)源中的任一個或兩個都可以是數(shù)據(jù)庫表格或文件。
用以描述該關(guān)系的特性的參量包括描述第一字段的值與第二字段的值的匯合特性的參量。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于AB開元軟件公司,未經(jīng)AB開元軟件公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/200810093033.X/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 上一篇:輪轉(zhuǎn)印刷機的折頁單元
- 下一篇:可再充電電池及其制造方法
- 數(shù)據(jù)處理設(shè)備,數(shù)據(jù)處理方法,和數(shù)據(jù)處理程序
- 數(shù)據(jù)處理電路、數(shù)據(jù)處理裝置、數(shù)據(jù)處理方法、數(shù)據(jù)處理控制方法
- 數(shù)據(jù)處理設(shè)備、數(shù)據(jù)處理方法和數(shù)據(jù)處理程序
- 數(shù)據(jù)處理裝置、數(shù)據(jù)處理方法及數(shù)據(jù)處理程序
- 數(shù)據(jù)處理裝置、數(shù)據(jù)處理方法及計算機可讀取的記錄介質(zhì)
- 數(shù)據(jù)處理裝置、數(shù)據(jù)處理方法和數(shù)據(jù)處理程序
- 數(shù)據(jù)處理裝置、數(shù)據(jù)處理方法和數(shù)據(jù)處理程序
- 數(shù)據(jù)處理裝置、數(shù)據(jù)處理方法以及數(shù)據(jù)處理程序
- 數(shù)據(jù)處理裝置、數(shù)據(jù)處理方法以及數(shù)據(jù)處理程序
- 數(shù)據(jù)處理裝置、數(shù)據(jù)處理方法和數(shù)據(jù)處理程序
- 一種基于應(yīng)用軟件散布的軟件授權(quán)與保護(hù)方法及系統(tǒng)
- 一種用于航空機載設(shè)備的軟件在線加載系統(tǒng)及方法
- 軟件構(gòu)建方法、軟件構(gòu)建裝置和軟件構(gòu)建系統(tǒng)
- 惡意軟件檢測方法及裝置
- 一種基于軟件基因的軟件同源性分析方法和裝置
- 軟件引入系統(tǒng)、軟件引入方法及存儲介質(zhì)
- 軟件驗證裝置、軟件驗證方法以及軟件驗證程序
- 使用靜態(tài)和動態(tài)惡意軟件分析來擴展惡意軟件的動態(tài)檢測
- 一種工業(yè)控制軟件構(gòu)建方法和軟件構(gòu)建系統(tǒng)
- 可替換游戲軟件與測驗軟件的裝置與方法
- 在數(shù)據(jù)處理系統(tǒng)中基于所需電池壽命的計算機電源管理
- 在網(wǎng)絡(luò)數(shù)據(jù)處理系統(tǒng)中安裝軟件的方法和系統(tǒng)
- 遠(yuǎn)程數(shù)據(jù)處理系統(tǒng)的配置
- 多個子據(jù)處理系統(tǒng)之間在線切換的方法
- 跨境多幣種數(shù)據(jù)處理系統(tǒng)和方法
- 用于批量和實時數(shù)據(jù)處理的設(shè)備、系統(tǒng)和方法
- 動態(tài)地調(diào)整品牌和平臺界面元素
- 基于銀行卡交易的數(shù)據(jù)處理方法以及數(shù)據(jù)處理系統(tǒng)
- 數(shù)據(jù)處理方法、裝置和設(shè)備
- 用于批量和實時數(shù)據(jù)處理的設(shè)備、系統(tǒng)和方法





