[發明專利]多模態數據存儲管理的方法及系統在審
| 申請號: | 202211240474.4 | 申請日: | 2022-10-11 |
| 公開(公告)號: | CN115587082A | 公開(公告)日: | 2023-01-10 |
| 發明(設計)人: | 張靜逸;江波;張浩博;雷旸;王夢童 | 申請(專利權)人: | 華東計算技術研究所(中國電子科技集團公司第三十二研究所) |
| 主分類號: | G06F16/182 | 分類號: | G06F16/182;G06F16/172;G06F16/16;G06F16/13;G06N20/00 |
| 代理公司: | 上海段和段律師事務所 31334 | 代理人: | 黃磊 |
| 地址: | 201800 *** | 國省代碼: | 上海;31 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 多模態 數據 存儲 管理 方法 系統 | ||
本發明提供了一種多模態數據存儲管理的方法及系統,包括:對多源異構數據進行統一描述;獲得統一結構的元數據,提取各異構數據的特征,再分析和存儲,將多源異構數據的特征串聯;將高效訪問機制建立在分布式文件系統的客戶端/服務器模式架構基礎之上,設計客戶端緩存層和服務器端緩存層,提供兩階段的存取性能加速;通過對文件元數據進行分析、預取和緩存操作,減少系統中元數據的訪問請求數量,得到在分布式文件系統中優化元數據的訪問過程和元數據訪問效率。本發明在管理多源異構數據的同時還能完成歷史數據的有效累積,實現對多源異構數據的統一描述,為多源數據提供一體化數據存儲、訪問服務,進一步促進數據綜合治理系統的優化。
技術領域
本發明涉及多模態數據存儲的技術領域,具體地,涉及多模態數據存儲管理的方法及系統。
背景技術
信息技術與經濟社會的交匯融合引發了數據迅猛增長,數據已成為國家基礎性戰略資源。多模態數據存儲是支撐上層數據融合管理和分析等服務的基礎。針對實際應用中數據所具有的海量、復雜和多源異構特征,研究海量不確定異構數據的存儲模型等理論方法和關鍵技術是海量異構數據分析、共享和開發的必要前提。多源異構數據的組織和管理是大數據時代的重要研究內容。隨著用戶數據不斷增加,數據采集渠道不斷豐富,其規模增長不受限制。另一方面,數據信息的載體多樣化,從文字到圖形、圖像、聲音,從結構化到半結構、非結構化,數據種類的增多也沒有止境。
隨著信息系統的研發和應用朝著智能化階段邁進,對于海量多源異構數據進行多元化管理、標準化治理,并通過高質量數據實現精準治理、快速決策的業務需求成為了新的挑戰。國內外圍繞海量多模態數據的數據存儲結構、管理方式展開了許多研究,進行了諸多努力與嘗試。國外針對多模態數據的整合系統的研究發展迅速,已經開發出比較典型的集成系統。
Pentaho公司的首席技術官James Dixon提出數據湖作為一種大數據存儲處理和共享服務機制。數據湖是一種能夠保存數據原始格式的新型存儲架構。它將所有結構化和非結構化數據存儲在一個集中式存儲庫中,支持分布式地存儲海量的結構化數據、半結構化數據和非結構化數據。允許擴展到任何規模的數據,同時節省定義數據結構、Schema和轉換的時間。針對相關領域大數據多源異構特性,搭建數據湖用于存儲多模態數據,可使得項目快速周轉。
亞馬遜、微軟等國外領先云計算與人工智能企業基于數據湖技術需求,分別提出了AWS Lake Format ion、Azure Data Lake。亞馬遜公司的Amazon Simple StorageService(S3)是一種高性能對象存儲服務,適用于結構化和非結構化數據,使用Amazon S3存儲的數據受到99.999999999%的持久性保護,是可用于構建數據湖的存儲服務。在Amazon S3上構建的數據湖,可以使用原生AWS服務運行大數據分析、人工智能(AI)、機器學習(ML)、高性能計算(HPC)和媒體數據處理應用程序,以便從多模態數據集中獲得關鍵信息。
美國CSC公司開發的Multibase系統是一種集成異構分布式數據庫系統,用于集成多源的、異構的、分布式數據庫的訪問。該系統抑制了數據庫管理系統、語言和數據模型之間的差異,為用戶提供了統一的全局模式和單一的高級查詢語言,并且使得本地數據庫保留了更新的自主權。
美國IBM公司開發了Garl ic系統,設計之初是為了建立一個異構數據庫系統,能夠集成不同數據庫系統以及各種非數據庫數據服務器中的數據。這種整合必須在保證數據服務器獨立性的同時不創建其數據的副本。由于數據大多是由對象自然建模的,因此該系統為應用程序提供了一個面向對象的模式,提供對象查詢,創建并且將查詢片段發送到適當的數據服務器,并匯編查詢結果以將其傳遞回應用程序。
斯坦福大學研究開發的TSIMMIS是一個異構信息源集成系統,主要針對結構化數據和非結構化數據,從非結構化數據中提取屬性的組件對象,將信息轉換為公共對象模型,它結合了來自多個來源的信息,并且允許瀏覽信息,并管理約束跨異構站點。其優點是對任意數據源皆可適用,不同數據可以用不同程序解決。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于華東計算技術研究所(中國電子科技集團公司第三十二研究所),未經華東計算技術研究所(中國電子科技集團公司第三十二研究所)許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202211240474.4/2.html,轉載請聲明來源鉆瓜專利網。
- 數據顯示系統、數據中繼設備、數據中繼方法、數據系統、接收設備和數據讀取方法
- 數據記錄方法、數據記錄裝置、數據記錄媒體、數據重播方法和數據重播裝置
- 數據發送方法、數據發送系統、數據發送裝置以及數據結構
- 數據顯示系統、數據中繼設備、數據中繼方法及數據系統
- 數據嵌入裝置、數據嵌入方法、數據提取裝置及數據提取方法
- 數據管理裝置、數據編輯裝置、數據閱覽裝置、數據管理方法、數據編輯方法以及數據閱覽方法
- 數據發送和數據接收設備、數據發送和數據接收方法
- 數據發送裝置、數據接收裝置、數據收發系統、數據發送方法、數據接收方法和數據收發方法
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置





