[發(fā)明專利]跨數(shù)據(jù)庫和文件系統(tǒng)的查詢一體化有效
| 申請?zhí)枺?/td> | 201380076177.3 | 申請日: | 2013-04-02 |
| 公開(公告)號: | CN105164673A | 公開(公告)日: | 2015-12-16 |
| 發(fā)明(設(shè)計)人: | Q·陳;M·許 | 申請(專利權(quán))人: | 惠普發(fā)展公司;有限責任合伙企業(yè) |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 北京德琦知識產(chǎn)權(quán)代理有限公司 11018 | 代理人: | 郭艷芳;康泉 |
| 地址: | 美國德*** | 國省代碼: | 美國;US |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 數(shù)據(jù)庫 文件系統(tǒng) 查詢 一體化 | ||
背景技術(shù)
數(shù)據(jù)庫用于搜集、訪問和管理數(shù)據(jù)。通常將數(shù)據(jù)庫組織成支持對數(shù)據(jù)的處理。例如,數(shù)據(jù)庫通常用于實現(xiàn)航空公司、汽車租賃和連鎖酒店的預(yù)定系統(tǒng)。數(shù)據(jù)庫通常還用于維持銀行賬戶和其他金融和客戶記錄,在這里僅僅列舉在各種業(yè)務(wù)中使用數(shù)據(jù)庫的幾個非限制性示例。
數(shù)據(jù)庫管理系統(tǒng)(DBMS)可以被實現(xiàn)為限定、創(chuàng)建、查詢以及管理數(shù)據(jù)庫。示例DBMS包括但不限于PostgreSQL系統(tǒng)。其他商業(yè)和專用DBMS也可用。盡管不同的DBMS能夠利用標準接口(例如,SQL標準)對不同的數(shù)據(jù)庫進行操作,但在不同的DBMS之間數(shù)據(jù)庫通常不是便攜的。即,一種類型的DBMS往往不能訪問以不同的數(shù)據(jù)結(jié)構(gòu)或形式存儲的數(shù)據(jù)。
附圖說明
圖1是對于跨數(shù)據(jù)庫和文件系統(tǒng)的查詢一體化可實現(xiàn)的示例網(wǎng)絡(luò)計算機系統(tǒng)的高級示圖。
圖2是圖示跨數(shù)據(jù)庫和文件系統(tǒng)的查詢一體化的示例的圖形表示。
圖3是圖示被實現(xiàn)為Hadoop文件系統(tǒng)(HDFS)數(shù)據(jù)源和數(shù)據(jù)接收器的關(guān)系數(shù)據(jù)庫(RDB)的示例的圖形表示。
圖4是圖示被實現(xiàn)為關(guān)系數(shù)據(jù)庫(RDB)應(yīng)用的數(shù)據(jù)存儲器的Hadoop文件系統(tǒng)(HDFS)數(shù)據(jù)庫的示例的圖形表示。
圖5是圖示查詢結(jié)果的拼接操作以及將其存儲至關(guān)系數(shù)據(jù)庫(RDB)的存儲操作的示例的圖形表示。
圖6是圖示查詢結(jié)果的拼接操作以及將其存儲至Hadoop文件系統(tǒng)(HDFS)的存儲操作的示例的圖形表示。
圖7a至圖7c是圖示用于實現(xiàn)跨數(shù)據(jù)庫和文件系統(tǒng)的查詢一體化的示例操作的流程圖。
具體實施方式
公開了跨數(shù)據(jù)庫和文件系統(tǒng)的查詢一體化。通過圖示,數(shù)據(jù)一體化可包括在現(xiàn)有(規(guī)則)RDB上運行SQL查詢,該查詢使HDFS數(shù)據(jù)作為數(shù)據(jù)源,并且為此查詢引擎使用函數(shù)掃描來取代表掃描。數(shù)據(jù)一體化使HDFS中的數(shù)據(jù)在由傳統(tǒng)RDB的查詢引擎處理的SQL查詢中進行流操作。以此方式,HDFS變成該查詢的數(shù)據(jù)源。注意,查詢一體化可在無需首先將來自Hadoop平臺的數(shù)據(jù)復(fù)制/具體化至RDB平臺以進行查詢的情況下出現(xiàn)。因此,查詢一體化表示不同數(shù)據(jù)庫文件系統(tǒng)的動態(tài)的“并排”或平行一體化,并且不同于靜態(tài)地合并這些文件系統(tǒng)。
許多業(yè)務(wù)具有不止一種數(shù)據(jù)庫(例如,RDB和HDFS二者)。例如,銀行可將現(xiàn)有客戶記錄保持在RDB中用于快速訪問。銀行還可以保持遺產(chǎn)記錄用于在HDFS數(shù)據(jù)庫中長期存儲。然而,時常需要來自兩種類型的數(shù)據(jù)庫的數(shù)據(jù)。例如,當生成一份包括存儲在HDFS數(shù)據(jù)庫中的歷史交易和存儲在RDB中的當前交易的報告時。
DBMS可能具有至RDB的SQL接口。SQL接口是適于管理相對小規(guī)模(在百萬兆字節(jié)數(shù)量級)的結(jié)構(gòu)數(shù)據(jù)的成熟平臺。另一個DBMS可具有至HDFS數(shù)據(jù)庫的關(guān)鍵值(非SQL)接口。HDFS是分布的容錯平臺,適用于管理相對大規(guī)模(例如,在千萬億字節(jié)數(shù)量級)的非結(jié)構(gòu)數(shù)據(jù)。
盡管本文參考RDB和HDFS數(shù)據(jù)庫描述了示例,但用于跨數(shù)據(jù)庫和文件系統(tǒng)的查詢一體化的技術(shù)可應(yīng)用于各種不同類型的數(shù)據(jù)庫結(jié)構(gòu)或格式,以及DBMS。
通常不能直接查詢被存儲在這些不同數(shù)據(jù)庫結(jié)構(gòu)或格式中的數(shù)據(jù)。訪問被保持在不同數(shù)據(jù)庫格式或結(jié)構(gòu)中的數(shù)據(jù)的嘗試目前涉及性能上的權(quán)衡。即,數(shù)據(jù)首先必須轉(zhuǎn)換成與查詢引擎被配置成進行操作的數(shù)據(jù)庫格式相同的數(shù)據(jù)庫格式。例如,來自HDFS數(shù)據(jù)庫的元數(shù)據(jù)、屬性描述以及交易類型數(shù)據(jù)可被建模為關(guān)系,然后被存儲在RDB中,用于由SQL查詢引擎訪問。同樣,RDB中的內(nèi)容信息(例如,文本、圖像以及語音)可被建模為“大-表”(例如,作為本地Hadoop數(shù)據(jù)對象),然后被存儲在HDFS數(shù)據(jù)庫中,用于由Hadoop查詢引擎訪問。盡管大多數(shù)的數(shù)據(jù)類型能夠被轉(zhuǎn)換成其他格式,然后被加載進不同數(shù)據(jù)庫類型用于查詢,但這些轉(zhuǎn)換操作引入了一定水平的靜態(tài)物化并且相應(yīng)地增加了處理和存儲開銷。
本文公開了跨數(shù)據(jù)庫和文件系統(tǒng)(例如,跨RDB數(shù)據(jù)庫和HDFS數(shù)據(jù)庫)的查詢一體化,其在轉(zhuǎn)換之前不再需要將數(shù)據(jù)從一種數(shù)據(jù)庫格式轉(zhuǎn)換成另一種數(shù)據(jù)庫格式。使用本文所描述的查詢一體化系統(tǒng)和方法的不同數(shù)據(jù)庫類型的一體化使被存儲在任意系統(tǒng)中的數(shù)據(jù)能夠(例如,經(jīng)由SQL和/或Hadoop應(yīng)用)被訪問。本文所描述的查詢一體化系統(tǒng)和方法還支持對以可擴展的有效方式從兩個系統(tǒng)檢索的數(shù)據(jù)進行可擴展拼接操作。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于惠普發(fā)展公司;有限責任合伙企業(yè),未經(jīng)惠普發(fā)展公司;有限責任合伙企業(yè)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201380076177.3/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 數(shù)據(jù)庫
- 數(shù)據(jù)庫管理系統(tǒng)及數(shù)據(jù)庫
- 數(shù)據(jù)庫構(gòu)筑裝置、數(shù)據(jù)庫檢索裝置、數(shù)據(jù)庫裝置、數(shù)據(jù)庫構(gòu)筑方法、以及數(shù)據(jù)庫檢索方法
- 數(shù)據(jù)庫和數(shù)據(jù)庫處理方法
- 數(shù)據(jù)庫系統(tǒng)、數(shù)據(jù)庫更新方法、數(shù)據(jù)庫以及數(shù)據(jù)庫更新程序
- 容器數(shù)據(jù)庫
- 數(shù)據(jù)庫同步方法及數(shù)據(jù)庫
- 一種MongoDB數(shù)據(jù)庫對象復(fù)制延遲監(jiān)控方法和裝置
- 數(shù)據(jù)分布式存儲方法、裝置、電子設(shè)備及存儲介質(zhì)
- 數(shù)據(jù)庫語句執(zhí)行方法及裝置





