[發明專利]數據處理方法、數據處理裝置及計算機可讀存儲介質有效
| 申請號: | 201210367944.3 | 申請日: | 2004-09-15 |
| 公開(公告)號: | CN102982065A | 公開(公告)日: | 2013-03-20 |
| 發明(設計)人: | 喬爾·古爾德;卡爾·范曼;保羅·貝 | 申請(專利權)人: | 起元科技有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 隆天國際知識產權代理有限公司 72003 | 代理人: | 張艷杰;張浴月 |
| 地址: | 美國馬*** | 國省代碼: | 美國;US |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 數據處理 方法 裝置 計算機 可讀 存儲 介質 | ||
本申請是申請日為2004年9月15日、申請號為200480026429.2(國際申請號為PCT/US2004/030144)、發明名稱為“數據歸檔”的中國專利申請的分案申請。
相關申請的參照
本申請要求2003年9月15日提交的No.60/502,908、2003年10月20遞交的No.60/513,038以及2003年12月22日遞交的No.60/532,956的美國臨時申請的權益。上述引用的申請通過參考援引在此。
技術領域
本發明涉及數據歸檔(profling)。
背景技術
存儲的數據集經常包括事先未知各種特性的數據。例如,數據集的值或一般值的范圍,在數據集內不同字段之間的關系,或在不同字段中的值之間的函數依賴性可能是未知的。數據歸檔會涉及到檢查數據集的源,以確定這些特性。數據歸檔系統的用途之一是收集有關數據集的信息,然后該信息用于設計集結區(staging?area),以便在進一步處理之前裝載數據集。然后,基于在數據歸檔過程中收集的信息,在集結區中進行將數據集映射到希望的目標格式和位置所需的轉換。這種轉換可能是必要的,例如,使第三方數據與已有數據存儲器兼容,或者將數據從原來的計算機系統轉移到新的計算機系統。
發明內容
一般而言,在一個方案中,本發明的特征是數據處理方法。接收記錄流,每個記錄包括一個或多個字段和對應值;在多個處理器之間分割所述記錄流;為每個記錄生成在各記錄中具有值的每個字段的字段值對,所述字段值對表示各記錄中的字段和用于所述字段的對應值;為每個處理器生成每個相異字段值對的調查元素,所述調查元素包括表示所述相異字段和所述相異值的字段值對的計數;基于用于各字段的所述調查元素計算所述記錄流中每個字段的統計數字;以及基于對應的統計數字為所述記錄流中的每個字段生成歸檔。
本發明的方案可以包括一個或多個以下特征。
生成在每個記錄中具有值的每個字段的所述字段值對的步驟包括確定記錄中的特定字段是否為條件字段;以及響應于確定所述特定字段為條件字段,確定所述特定字段是否具有值。
記錄流的至少一個記錄包括可變數目的字段。
基于所述統計數字確定格式規范。
為至少一個字段計算直方圖或十分位數統計數字。
基于所述記錄的順序特性計算用于所述記錄流的序列統計數字。
一般而言,在另一個方案中,本發明的特征是數據處理裝置。該數據處理裝置包括:接收模塊,用于接收記錄流,每個記錄包括一個或多個字段和對應值;分割模塊,用于在多個處理器之間分割所述記錄流;字段值對生成模塊,用于為每個記錄生成在各記錄中具有值的每個字段的字段值對,所述字段值對表示各記錄中的字段和用于所述字段的對應值;調查元素生成模塊,用于為每個處理器生成每個相異字段值對的調查元素,所述調查元素包括表示所述相異字段和所述相異值的字段值對的計數;計算模塊,用于基于用于各字段的所述調查元素計算所述記錄流中每個字段的統計數字;以及歸檔生成模塊,用于基于對應的統計數字為所述記錄流中的每個字段生成歸檔。
本發明的方案可以包括一個或多個以下特征。
字段值對生成模塊包括:用于確定記錄中的特定字段是否為條件字段的模塊;以及用于響應于確定所述特定字段為條件字段,確定所述特定字段是否具有值的模塊。記錄流的至少一個記錄包括可變數目的字段。
數據處理裝置還包括用于基于所述統計數字確定格式規范的模塊。
數據處理裝置還包括:用于計算至少一個字段的直方圖或十分位數統計數字的模塊。
數據處理裝置還包括:用于基于所述記錄的順序特性計算用于所述記錄流的序列統計數字的模塊。
一般而言,在再一個方案中,本發明的特征是存儲用于數據處理的計算機程序的計算機可讀存儲介質,所述計算機程序包括用于使計算機系統執行以下操作的指令:接收記錄流,每個記錄包括一個或多個字段和對應值;在多個處理器之間分割所述記錄流;為每個記錄生成在各記錄中具有值的每個字段的字段值對,所述字段值對表示各記錄中的字段和用于所述字段的對應值;為每個處理器生成每個相異字段值對的調查元素,所述調查元素包括表示所述相異字段和所述相異值的字段值對的計數;基于用于各字段的所述調查元素計算所述記錄流中每個字段的統計數字;以及基于對應的統計數字為所述記錄流中的每個字段生成歸檔。
本發明的方案可以包括一個或多個以下特征。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于起元科技有限公司,未經起元科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201210367944.3/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種USB接口裝置及手機
- 下一篇:一種應用于遠程協助的易維幫助臺系統





