[發明專利]對于半結構化數據的列狀數據布置有效
| 申請號: | 201680073840.8 | 申請日: | 2016-10-19 |
| 公開(公告)號: | CN108369598B | 公開(公告)日: | 2021-11-09 |
| 發明(設計)人: | 劉振華;B·哈默施密特;D·麥克馬洪;劉穎 | 申請(專利權)人: | 甲骨文國際公司 |
| 主分類號: | G06F16/84 | 分類號: | G06F16/84 |
| 代理公司: | 中國貿促會專利商標事務所有限公司 11038 | 代理人: | 邊海梅 |
| 地址: | 美國加*** | 國省代碼: | 暫無信息 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 對于 結構 數據 布置 | ||
提供了用于將半結構化層級數據去規范化為虛擬表的技術。在實施例中,半結構化數據文檔集合的至少一部分被去規范化,用于改進涉及遍歷半結構化數據文檔集合的半結構化數據層級的查詢的執行。基于提取出的半結構化數據的模式,生成去規范化布置,其中半結構化數據的層級關系被轉換為列集合。通過將去規范化布置應用到半結構化數據上,去規范化布置在虛擬表中進行物化。在實施例中,接收到的涉及遍歷半結構化數據層級的查詢被轉換為可以在虛擬表上執行的關系查詢。在虛擬表上執行關系查詢改進了生成結果數據集的性能。
技術領域
本發明涉及數據庫系統,并且更具體地,涉及評估對數據庫系統中半結構化數據的查詢。
背景技術
半結構化數據格式(諸如JSON和XML)廣泛用于存儲大量數據集,特別是因為半結構化數據可方便地存儲在一個或多個文檔中而不會丟失數據的層級信息(hierarchicalinformation)。數據的層級信息可以包括信息關系和彼此引用的數據部分的布置。例如,半結構化數據通常可以表示為節點的層級,每個節點包含數據的一部分。在這樣的層級中,包含半結構化數據的一部分的每個節點與層級中的一個或多個其它節點具有層級關系:節點在半結構化數據中可以是另一個節點的父節點、兄弟節點或子節點。
雖然在大量文檔中存儲半結構化數據的大型數據集很方便,但查詢如此大量的文檔具有挑戰性。特別地,查詢可能請求與查詢定義的值約束匹配并且位于層級的特定級別/分支/節點中的數據。為了滿足查詢,匹配查詢標準的每個文檔需要根據層級進行瀏覽以匹配所請求的數據。這些操作可能非常昂貴,尤其是考慮到可能需要遍歷數千甚至數十萬個文檔。如果所涉及的層級的模式是未知的,那么層級的遍歷是特別昂貴的操作。為了查詢未知或“隱式”模式數據,必須假定關于半結構化數據的層級,并且結果返回的數據只有在半結構化數據確實符合假定的層級時才是正確的。
一種解決方案是規范化半結構化數據并將數據存儲在關系數據庫的關系表中,以利用數據庫管理系統(DBMS)的強大查詢功能。但是,即使以關系方式存儲數據時,查詢性能也不是最優的。對于具有一對多基數關系的數據集,半結構化數據的數據集單獨存儲在關系數據庫中以避免重復。例如,對于除了名稱之外還包含客戶地址和電話號碼的客戶數據,每個客戶名稱可以對應于多個地址以及多個電話號碼。因此,如果所有客戶數據都要存儲在DBMS中的關系數據庫的單個表中,那么為了保留客戶名稱與地址和電話號碼之間的關系,每個客戶名稱將針對每個地址再次重復,并且然后針對每個電話號碼重復。將地址和電話號碼存儲在單獨的表中,與客戶名稱的外鍵關系存儲在單獨的表中,避免了重復客戶名稱。術語“規范化”是指根據數據集的基數關系和數據類型將數據分成數據集的處理。
雖然通過避免重復對半結構化數據進行規范化提高了存儲效率,但與文檔存儲相比尚未改進的查詢性能可能仍然使其得不到重視。需要來自多個數據集的數據的查詢需要根據其相應的關系來加入數據集。例如,如果查詢針對選擇客戶名稱連同地址和電話號碼,那么查詢執行包括將客戶名稱表與客戶地址表和客戶電話號碼表接合以產生結果數據集。這種接合操作可能消耗大量資源,尤其在經常執行這種接合操作并且數據集大的情況下。
一種解決方案是產生以規范化方式物理存儲的數據的去規范化“視圖”。代替以去規范化的方式存儲數據的另一個副本,DBMS存儲產生去規范化視圖的預先計算的查詢。當接收到引用視圖的用戶查詢時,執行視圖的存儲的預先計算的查詢以產生該視圖的結果數據集。雖然存儲的查詢是預先計算的,但DBMS仍然必須從物理存儲中檢索數據并將數據布置在一起以獲得結果數據集。因此,即使查詢視圖也會比從數據庫中的單個表中檢索數據消耗更多的計算資源。
附圖說明
在附圖中:
圖1A是根據實施例的數據庫管理系統(DBMS)的框圖,該數據庫管理系統同時維護易失性存儲器中的鏡像格式虛擬表和持久性存儲裝置中的持久性格式虛擬表;
圖1B是描繪根據實施例的用于針對半結構化數據文檔集合處理查詢并且為所查詢的半結構化數據生成虛擬表的程序邏輯的處理圖;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于甲骨文國際公司,未經甲骨文國際公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201680073840.8/2.html,轉載請聲明來源鉆瓜專利網。
- 數據顯示系統、數據中繼設備、數據中繼方法、數據系統、接收設備和數據讀取方法
- 數據記錄方法、數據記錄裝置、數據記錄媒體、數據重播方法和數據重播裝置
- 數據發送方法、數據發送系統、數據發送裝置以及數據結構
- 數據顯示系統、數據中繼設備、數據中繼方法及數據系統
- 數據嵌入裝置、數據嵌入方法、數據提取裝置及數據提取方法
- 數據管理裝置、數據編輯裝置、數據閱覽裝置、數據管理方法、數據編輯方法以及數據閱覽方法
- 數據發送和數據接收設備、數據發送和數據接收方法
- 數據發送裝置、數據接收裝置、數據收發系統、數據發送方法、數據接收方法和數據收發方法
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置





