[發明專利]面向HDFS的split層索引方法和裝置有效
| 申請號: | 201710946601.5 | 申請日: | 2017-10-12 |
| 公開(公告)號: | CN110019084B | 公開(公告)日: | 2022-01-14 |
| 發明(設計)人: | 唐凌;林文輝 | 申請(專利權)人: | 航天信息股份有限公司 |
| 主分類號: | G06F16/182 | 分類號: | G06F16/182;G06F16/22;G06F16/2458 |
| 代理公司: | 北京潤平知識產權代理有限公司 11283 | 代理人: | 金旭鵬;肖冰濱 |
| 地址: | 100195 *** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 面向 hdfs split 索引 方法 裝置 | ||
本發明涉及數據檢索領域,公開了一種面向HDFS的split層索引方法和裝置。該方法包括:接收查詢請求;根據所述查詢請求在預先建立的統計信息表中進行查詢以確定相應的分塊split;以及加載所確定的split以獲取與所述查詢請求對應的數據。本發明通過在預先建立的統計信息表中查詢以確定相應的split,從而可以僅加載所確定的split以獲取相應的數據,由此啟動的Map數量就可以因僅加載所確定的split數量而大大減少,從而降低了I/O的時間開銷,大大提高了查詢速度。
技術領域
本發明涉及數據檢索領域,具體地涉及面向HDFS的split層索引方法和裝置。
背景技術
HDFS(Hadoop分布式文件系統)作為Hadoop生態圈的底層基礎,通常被用來存儲離線數據,并結合Map/Reduce來處理分析性查詢,但對于對響應時間要求嚴格的選擇性和交互式查詢,則存在性能上的缺陷。
在傳統的數據庫管理技術中,提高查詢處理速度最常用的方法是索引。通過索引來快速過濾掉不符合查詢要求的數據,從而可以極大地降低I/O、縮小搜索范圍、降低響應時間。然而,傳統的索引技術并不能直接應用到HDFS的查詢中?,F有技術中對HDFS的查詢需要啟動Map來實現,而在Map Task處理階段,Map Task初始化和RecordReader讀取數據產生的磁盤I/O的時間開銷占了很大比重。
發明內容
本發明提供了面向HDFS的split層索引方法和裝置,用于解決I/O開銷大的問題。
為了實現上述目的,本發明一方面提供了一種面向HDFS的split層索引方法,該方法包括:接收查詢請求;根據所述查詢請求在預先建立的統計信息表中進行查詢以確定相應的分塊split;以及加載所確定的split以獲取與所述查詢請求對應的數據。
優選地,所述統計信息表包括所有split中的每一個split的標識ID splitID和所有split中的每一個split所對應的索引屬性的多個索引屬性值;其中,一個splitID對應一個索引屬性。
優選地,所述統計信息表中的每一個索引屬性的多個索引屬性值用多個數據區間來表示。
優選地,所述統計信息表的建立過程如下:對每一個splitID對應的索引屬性的多個索引屬性值按升序排序;計算升序排序后的多個索引屬性值的相鄰兩個索引屬性值之間的距離gap;以及將gap的值最大的k-1個gap所對應的2k-2個索引屬性值以及所述多個索引屬性值中的最小值和最大值這2k個value組合成k個數據區間;其中,所述k個數據區間相互不重疊,k為大于1的整數。
優選地,該方法還包括:將所述查詢請求所對應的數據請求區間與所述統計信息表中的每一個split對應的所述k個數據區間進行比較,判斷是否有交集;將存在交集的數據區間所對應的split進行加載;以及將不存在交集的數據區間所對應的split丟棄。
本發明第二方面提供了一種面向HDFS的split層索引裝置,該裝置包括:接收模塊,用于接收查詢請求;查詢模塊,用于根據所述查詢請求在預先建立的統計信息表中進行查詢以確定相應的分塊split;以及加載模塊,用于加載所確定的split以獲取與所述查詢請求對應的數據。
優選地,所述統計信息表包括所有split中的每一個split的標識ID splitID和所有split中的每一個split所對應的索引屬性的多個索引屬性值;其中,一個splitID對應一個索引屬性。
優選地,所述統計信息表中的每一個索引屬性的多個索引屬性值用多個數據區間來表示。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于航天信息股份有限公司,未經航天信息股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710946601.5/2.html,轉載請聲明來源鉆瓜專利網。





