[發(fā)明專利]一種基于Elasticsearch的Hive二級全文索引技術(shù)方法及系統(tǒng)在審
| 申請?zhí)枺?/td> | 202010616559.2 | 申請日: | 2020-07-01 |
| 公開(公告)號: | CN111753045A | 公開(公告)日: | 2020-10-09 |
| 發(fā)明(設(shè)計)人: | 于偉;周恒;樊文昌 | 申請(專利權(quán))人: | 浪潮云信息技術(shù)股份公司 |
| 主分類號: | G06F16/31 | 分類號: | G06F16/31;G06F16/33 |
| 代理公司: | 濟南信達專利事務(wù)所有限公司 37100 | 代理人: | 姜明 |
| 地址: | 250100 山東省濟南市高*** | 國省代碼: | 山東;37 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 elasticsearch hive 二級 全文 索引 技術(shù) 方法 系統(tǒng) | ||
本發(fā)明公開了一種基于Elasticsearch的Hive二級全文索引技術(shù)方法及系統(tǒng),屬于數(shù)據(jù)全文索引技術(shù)領(lǐng)域;所述的方法具體步驟包括:S1通過CREATE FULL INDEX對Hive原始數(shù)據(jù)表創(chuàng)建全文索引表;S2將原始表INSERT、UPDATE、DELETE與ES中的全文索引表同步操作;S3使用全文索引條件查詢原始表;S4刪除全文索引;S5刪除原始表;本二級全文索引方案可達到其發(fā)明目的所闡述的效果,可應(yīng)用于全文索引需求較強的場景,如日志存儲系統(tǒng)、個人信息融合系統(tǒng)等;基于事務(wù)日志技術(shù)確保原始表和索引表的數(shù)據(jù)強一致性,可使其更加可靠。同時Hive和ES均為高可用系統(tǒng),使之在整體上高可用;同時這一技術(shù)方法也將Hadoop生態(tài)和Elastic軟件棧進行深度融合,這一是較大突破。
技術(shù)領(lǐng)域
本發(fā)明公開一種基于Elasticsearch的Hive二級全文索引技術(shù)方法及系統(tǒng),涉及數(shù)據(jù)全文索引技術(shù)領(lǐng)域。
背景技術(shù)
Hive on Elasticsearch(Elasticsearch簡寫為ES)插件是由elastic 公司研發(fā)的,實現(xiàn)了hive external storage handler機制的插件。加載該插件后,hive的存儲數(shù)據(jù)源不僅僅是hdfs,也可以是Elasticsearch等外部存儲引擎;
通過Hive可以間接對Elasticsearch引擎進行增刪查改操作:
1)可以CREATE、DROP TABLE語句可以創(chuàng)建、刪除Elasticsearch引擎的表;
2)通過INSERT、UPDATE、DELETE、SELECT語句可對Elasticsearch引擎表進行相應(yīng)操作;
現(xiàn)有的全文檢索基礎(chǔ)覆蓋需求場景較為狹小,在對大量數(shù)據(jù)進行索引操作時不易保持?jǐn)?shù)據(jù)的一致性,故現(xiàn)發(fā)明一種基于Elasticsearch的Hive二級全文索引技術(shù)方法及系統(tǒng)以解決上述問題。
發(fā)明內(nèi)容
本發(fā)明針對現(xiàn)有技術(shù)的問題,提供一種基于Elasticsearch的Hive二級全文索引技術(shù)方法及系統(tǒng),所采用的技術(shù)方案為:
一種基于Elasticsearch的Hive二級全文索引技術(shù)方法,所述的方法具體步驟包括:
S1通過CREATE FULL INDEX對Hive原始數(shù)據(jù)表創(chuàng)建全文索引表;
S2將原始表INSERT、UPDATE、DELETE與ES中的全文索引表同步操作;
S3使用全文索引條件查詢原始表;
S4刪除全文索引;
S5刪除原始表。
所述S1通過CREATE FULL INDEX對Hive原始數(shù)據(jù)表創(chuàng)建全文索引表的具體步驟包括:
S101增加DDL關(guān)鍵字FULL;
S102對CREATE FULL INDEX進行語句掃描、詞法分析和語法檢查
S103檢查通過后根據(jù)DDL元數(shù)據(jù)信息在ES引擎中創(chuàng)建對應(yīng)的索引表。
所述S2將原始表INSERT、UPDATE、DELETE與ES中的全文索引表同步操作的具體步驟包括:
S201記錄本次操作的事務(wù)日志;
S202 INSERT、UPDATE、DELETE在原始表上操作,成功向下執(zhí)行,失敗則返回S201;
S203 INSERT、UPDATE、DELETE在索引表上操作,成功執(zhí)行則提交事務(wù),失敗則根據(jù)事務(wù)日志回滾事務(wù)。
所述S3使用全文索引條件查詢原始表的具體步驟包括:
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于浪潮云信息技術(shù)股份公司,未經(jīng)浪潮云信息技術(shù)股份公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010616559.2/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 基于Elasticsearch的DSL查詢方法
- 一種基于mongo數(shù)據(jù)庫的搜索系統(tǒng)
- 一種基于Presto和Elasticsearch的SQL查詢方法
- 一種基于Elasticsearch的數(shù)據(jù)處理方法及終端
- 一種Kafka與Elasticsearch數(shù)據(jù)庫數(shù)據(jù)的互相遷移方法
- 一種Elasticsearch數(shù)據(jù)查詢方法及系統(tǒng)
- 一種基于Elasticsearch的數(shù)據(jù)檢索方法、裝置、設(shè)備、介質(zhì)
- 基于條件下推elasticsearch的hive索引方法
- 一種Elasticsearch索引的加載方法、裝置、計算機設(shè)備和存儲介質(zhì)
- Elasticsearch搜索引擎的索引創(chuàng)建方法及裝置
- 一種Hive調(diào)度方法及裝置
- 一種Hive表修復(fù)方法、裝置、設(shè)備及計算機可讀存儲介質(zhì)
- Hive表一致性校驗方法、系統(tǒng)、設(shè)備及存儲介質(zhì)
- 基于大數(shù)據(jù)平臺的HIVE任務(wù)調(diào)度方法、裝置、設(shè)備及存儲介質(zhì)
- 獲取中文數(shù)據(jù)庫結(jié)構(gòu)的方法及裝置
- 一種hive離線同步校驗方法、裝置及電子設(shè)備
- Hive增量數(shù)據(jù)同步方法、裝置、計算機設(shè)備和存儲介質(zhì)
- 基于Hive的數(shù)據(jù)獲取方法、裝置及存儲介質(zhì)
- 一種基于Sqoop的多版本Hive支持方法、裝置、設(shè)備及介質(zhì)
- 一種關(guān)系型數(shù)據(jù)庫的數(shù)據(jù)全量導(dǎo)入Hive的方法





