[發明專利]一種基于Spark框架進行全文檢索的實現方法有效
| 申請號: | 201711194929.2 | 申請日: | 2017-11-24 |
| 公開(公告)號: | CN107943952B | 公開(公告)日: | 2020-10-13 |
| 發明(設計)人: | 強倩;孫昊良;張慧琳;周淵;張晨;李斌斌;劉慶良 | 申請(專利權)人: | 北京賽思信安技術股份有限公司;國家計算機網絡與信息安全管理中心 |
| 主分類號: | G06F16/2452 | 分類號: | G06F16/2452;G06F16/22;G06F16/2453;G06F16/2455 |
| 代理公司: | 北京永創新實專利事務所 11121 | 代理人: | 冀學軍 |
| 地址: | 100125 北京*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 spark 框架 進行 全文 檢索 實現 方法 | ||
本發明公開了一種基于Spark框架進行全文檢索的實現方法,屬于大數據處理領域。該方法首先接收待執行SQL語句,生成語法樹并轉換成相應的邏輯計劃;然后,從Hive中獲取檢索所有表的元數據,尋找支持全文檢索的字段,并通過字段哈希索引對數據塊進行初步裁剪;繼而,根據查詢條件從文件元數據中獲取數據塊所具體存放的磁盤位置;最后,將邏輯執行計劃轉換為可分布式執行的任務集合,通過各個數據塊位置來確定任務具體執行的目標節點和任務所具體執行的目標進程;對任務進行分發執行,并匯總執行結果,迭代獲取最終結果。該方法具有較高的效率,可以快速的完成海量數據的全文檢索,在大數據處理領域具有很強的實用性和應用范圍,具有很廣泛的應用前景。
技術領域
本發明屬于大數據處理領域,具體涉及一種基于Spark框架進行全文檢索的實現方法。
背景技術
隨著計算機技術的不斷發展和信息化程度的不斷提高,數據量迅速增長,大數據應用越來越廣泛。如,在網絡安全上,使用大數據技術分析網絡攻擊行為;在電子商務上,使用大數據技術分析用戶購物喜好或最受青睞的商品;在城市建設上,利用大數據技術構建智慧城市,方便人民出行。諸如此類,大數據技術在建設節約型社會,提高生成效率等方面起到了積極的推動作用;但隨著數據量的持續增大和大數據應用的不斷發展,面向海量數據的存儲和應用也在蓬勃發展,隨之而來的是對檢索大數據的要求越來越高。在海量數據檢索應用中,全文檢索是最常用的統計功能之一,其可用性和效率直接影響了業務應用。
全文檢索是一種將文件中所用文本與檢索項匹配的文字資料檢索方法,可以方便的進行對數據的相關統計和分析;而Apache基金會的Spark框架是一個通用并行框架,具有較高的效率及可用性,提供了同Hive一樣的HiveQL接口;但是原生的Spark框架并未支持全文檢索這一檢索方式。因此,如何使用Spark框架來進行全文檢索是一個需要解決的關鍵問題。
發明內容
本發明為了解決上述問題,提出了一種基于Spark框架進行全文檢索的實現方法;通過對數據進行索引創建和查詢,高效的對海量數據進行全文檢索,并使用索引和緩存來提高全文檢索的效率,提高全文檢索的可用性。
具體步驟如下:
步驟一、針對數據查詢和數據分析場景,spark框架通過Hive2JDBC接口接收用戶提交的待執行SQL語句;
步驟二、對待執行的SQL語句使用spark sql語法解析器進行語法解析,生成語句相對應的語法樹;
步驟三、對語法樹中的每一個節點進行迭代解析,將該語法樹轉換成相應的邏輯計劃,并將邏輯計劃中全文檢索的相關節點解析為Spark中的自定義函數。
每一節點即為一個語法結構,每個語法結構都有相應的邏輯執行計劃;邏輯執行計劃中存儲的是查詢條件。
步驟四、通過Hive接口的服務端口,Spark框架獲取對待執行SQL語句進行檢索的所有表的元數據;
所有表的元數據均存儲在Hive元數據服務中。
Spark框架進行全文檢索所使用的數據結構,包括兩部分,第一部分是表的元數據,第二部分是數據塊和索引。
其中,表的元數據又包括字段元數據,分區元數據,類型元數據和文件元數據;
字段元數據包括字段名稱和字段類型;分區元數據包括分區類型和分區名;類型元數據包括表類型和支持全文檢索的字段;文件元數據包括文件名,文件地址和字段哈希索引;
數據塊和索引包括n個時間分區,每個時間分區中分別包括若干數據塊和索引;每個數據塊各對應一個索引;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京賽思信安技術股份有限公司;國家計算機網絡與信息安全管理中心,未經北京賽思信安技術股份有限公司;國家計算機網絡與信息安全管理中心許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201711194929.2/2.html,轉載請聲明來源鉆瓜專利網。





