[發明專利]面向HDFS的split內部索引方法和裝置在審
| 申請號: | 201711023820.2 | 申請日: | 2017-10-27 |
| 公開(公告)號: | CN110019204A | 公開(公告)日: | 2019-07-16 |
| 發明(設計)人: | 唐凌;林文輝 | 申請(專利權)人: | 航天信息股份有限公司 |
| 主分類號: | G06F16/22 | 分類號: | G06F16/22;G06F16/2458;G06F16/182 |
| 代理公司: | 北京潤平知識產權代理有限公司 11283 | 代理人: | 金旭鵬;肖冰濱 |
| 地址: | 100195 *** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 索引 查詢請求 索引屬性 方法和裝置 預先建立 非聚集 加載 接收查詢 數據檢索 數據掃描 索引確定 磁盤I/O 分塊 查詢 期望 | ||
本發明實施例提供一種面向HDFS的split內部索引方法和裝置,屬于數據檢索領域。該方法包括:接收查詢請求;根據所述查詢請求確定索引屬性;根據所述索引屬性的索引屬性值通過預先建立的聚集索引或非聚集索引確定分塊split;以及加載所確定的split以獲取與所述查詢請求對應的數據。通過上述技術方案,本發明通過預先建立的聚集索引或非聚集索引來根據查詢請求確定期望加載的split,減少了不必要的數據掃描產生的磁盤I/O,提高了HDFS的查詢速度。
技術領域
本發明涉及數據檢索領域,具體地涉及面向HDFS的split內部索引方法和裝置。
背景技術
HDFS(Hadoop分布式文件系統)作為Hadoop生態圈的底層基礎,通常被用來存儲離線數據,并結合Map/Reduce來處理分析性查詢,但對于對響應時間有較嚴格要求的選擇性和交互式查詢,則存在性能上的缺陷。
在傳統的數據庫管理技術中,提高查詢處理速度最常用的方法是索引。通過索引可以快速過濾不符合查詢要求的數據,可以極大地降低I/O,縮小搜索范圍,降低響應時間。然而,傳統的索引技術并不能直接應用到HDFS的查詢中。
在HDFS里,表文件會被劃分成多個split來進行處理,每個split包含了大量的記錄,查詢時,如果對每條記錄都進行掃描,將會產生大量的磁盤I/O,降低查詢效率。
發明內容
本發明實施例的目的是提供一種面向HDFS的split內部索引方法和裝置,用于解決I/O開銷大的問題。
為了實現上述目的,本發明實施例提供了一種面向HDFS的split內部索引方法,該方法包括:接收查詢請求;根據所述查詢請求確定索引屬性;根據所述索引屬性的索引屬性值通過預先建立的聚集索引或非聚集索引確定分塊split;以及加載所確定的split以獲取與所述查詢請求對應的數據。
優選地,根據所述索引屬性的索引屬性值通過預先建立的聚集索引或非聚集索引確定split包括:在所述索引屬性僅包括一個屬性的情況下,通過所述聚集索引確定split;以及在所述索引屬性包括多個屬性的情況下,通過所述非聚集索引確定split。
優選地,所述聚集索引的建立過程如下:針對一個索引屬性的索引屬性值進行排序,并基于排序后的索引屬性值建立聚集索引。
優選地,所述非聚集索引的建立過程如下:針對多個索引屬性中的第一屬性的索引屬性值進行排序,并基于排序后的索引屬性值建立聚集索引;以及針對所述多個索引屬性中的除了所述第一屬性之外的其他屬性建立非聚集索引。
優選地,該方法還包括:將根據所述查詢請求所確定的索引屬性的索引屬性值的范圍與所述非聚集索引中對應的索引屬性的索引屬性值的范圍進行比較,判斷是否有交集;在存在交集的情況下,將索引屬性值的交集部分對應的split的數據進行加載;以及在不存在交集的情況下,將所述非聚集索引中對應的索引屬性的索引屬性值對應的split丟棄。
相應地,本發明實施例提供了一種面向HDFS的split內部索引裝置,該裝置包括:接收模塊,用于接收查詢請求;處理模塊,用于根據所述查詢請求確定索引屬性,并用于根據所述索引屬性通過預先建立的聚集索引或非聚集索引確定分塊split;以及加載模塊,用于加載所確定的split以獲取與所述查詢請求對應的數據。
優選地,所述處理模塊還用于:在所述索引屬性僅包括一個屬性的情況下,通過所述聚集索引確定split;以及在所述索引屬性包括多個屬性的情況下,通過所述非聚集索引確定split。
優選地,所述聚集索引的建立過程如下:針對一個索引屬性的索引屬性值進行排序,并基于排序后的索引屬性值建立聚集索引。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于航天信息股份有限公司,未經航天信息股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201711023820.2/2.html,轉載請聲明來源鉆瓜專利網。





