[發(fā)明專利]一種基于hdfs存儲且用lucene做索引的文件存儲方法在審
| 申請?zhí)枺?/td> | 202011313364.7 | 申請日: | 2020-11-20 |
| 公開(公告)號: | CN112231437A | 公開(公告)日: | 2021-01-15 |
| 發(fā)明(設(shè)計)人: | 母延年 | 申請(專利權(quán))人: | 南京好魚科技有限公司 |
| 主分類號: | G06F16/31 | 分類號: | G06F16/31;G06F16/33;G06F16/182 |
| 代理公司: | 南京中軟知識產(chǎn)權(quán)代理事務(wù)所(特殊普通合伙) 32466 | 代理人: | 鄭燕飛 |
| 地址: | 210000 江蘇省南京市江寧區(qū)董*** | 國省代碼: | 江蘇;32 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 hdfs 存儲 lucene 索引 文件 方法 | ||
本發(fā)明涉及文件索引技術(shù)領(lǐng)域的基于hdfs存儲且用lucene做索引的文件存儲方法,包括首先,搭建索引系統(tǒng)并獲取Lucene分布式索引系統(tǒng)維護過程不斷更新產(chǎn)生的各個索引文件;然后,對獲取的各個索引文件進行篩選分類后再進行索引文件合并處理,將分散的小索引文件合并為單一索引文件;對類型為tim、tip、doc、dvd、dvm、fdx、pay以及pos的文件均合并為一個文件;將文件按照順序規(guī)則存放起來;對存放數(shù)據(jù)進行數(shù)據(jù)驗證,經(jīng)過驗證合并后的文件可以正常的讀取后進行最終存儲,至此完成文件的存儲處理本發(fā)明能夠提供一種減少文件讀寫次數(shù)、處理存儲高效且縮短操作延時的基于hdfs存儲且用lucene做索引的文件存儲方法。
技術(shù)領(lǐng)域
本發(fā)明涉及文件索引技術(shù)領(lǐng)域,尤其涉及一種基于hdfs存儲且用lucene做索引的文件存儲方法。
背景技術(shù)
近年來,隨著物聯(lián)網(wǎng)、社交網(wǎng)絡(luò)、云計算等技術(shù)不斷融入我們的生活以及現(xiàn)有的計算能力、存儲空間、網(wǎng)絡(luò)帶寬的高速發(fā)展,人類積累的數(shù)據(jù)在互聯(lián)網(wǎng)、通信、金融、商業(yè)、醫(yī)療等諸多領(lǐng)域不斷地增長和累積。人們不僅希望能夠從大數(shù)據(jù)中提取出有價值的信息,更希望發(fā)現(xiàn)能夠有效支持生產(chǎn)生活中需要決策的更深層次規(guī)律;但是如何從數(shù)億TB級別的數(shù)據(jù)中得到更有價值的信息,是科技工作者一直在思考的問題與努力的方向。
從而在該時代背景下,大數(shù)據(jù)產(chǎn)業(yè)蓬勃發(fā)展,出現(xiàn)了很多優(yōu)秀的大數(shù)據(jù)技術(shù)。一如起初開源Hadoop,可以存儲TB級的數(shù)據(jù),亦可以進行TB級數(shù)據(jù)的分析。再到后來圍繞Hadoop生態(tài)圈建立的Hive(數(shù)據(jù)倉庫工具)、Hbase(數(shù)據(jù)庫)、Pig(數(shù)據(jù)分析平臺)等,使得人們選擇處理的技術(shù)簡單多樣化;更有近年來優(yōu)秀的大數(shù)據(jù)處理組件如Spark(計算引擎)、Flink(流處理框架)等,都使得人們在TB級別數(shù)據(jù)處理方面有了長足的進步。
雖然hadoop可以存儲TB級別的數(shù)據(jù),但是當文件數(shù)量逐步不斷增多時,Namenode(Hadoop主節(jié)點)會成為瓶頸,因為很多請求都需要請求Namenode。Hadoop存放的文件越多(眾多的索引文件,按照我們以前存放規(guī)律,掃描一年的數(shù)據(jù)可能會掃描幾十萬個文件),操作越頻繁,Namenode的壓力越大。從而我們在思考,在我們的索引系統(tǒng)上可以拋棄lucene默認的索引文件結(jié)構(gòu),通過創(chuàng)建全新類型索引文件結(jié)構(gòu),來減少文件數(shù)量,減少隨機讀等,這樣對我們系統(tǒng)的查詢性能將有很大的提升。當前系統(tǒng)存在以下問題:由于文件眾多LS(列舉)操作時間較長;Open(打開)操作與namenode的交互延時較長,降低系統(tǒng)查詢性能;Hdfs(分布式文件系統(tǒng))的文件較多,namenode的壓力極大,導致查詢性能的下降;對索引文件的讀取次數(shù)較多,操作過于頻繁。
發(fā)明內(nèi)容
本發(fā)明目的是為了克服現(xiàn)有技術(shù)的不足而提供一種減少文件讀寫次數(shù)、處理存儲高效且縮短操作延時的基于hdfs存儲且用lucene做索引的文件存儲方法。
下面關(guān)于后續(xù)技術(shù)方案表述中涉及的專業(yè)名詞解釋如下:
Lucene是指開源的高性能、可擴展的信息檢索引擎。
Hadoop是一個由Apache基金會所開發(fā)的分布式系統(tǒng)基礎(chǔ)架構(gòu)。
Namenode是指Hadoop主節(jié)點。
Hdfs是指分布式文件系統(tǒng)。
IndexReader是指索引讀取。
為達到上述目的,本發(fā)明采用了如下技術(shù)方案。
一種基于hdfs存儲且用lucene做索引的文件存儲方法,具體包括如下:
步驟S1:首先,搭建索引系統(tǒng)并獲取Lucene分布式索引系統(tǒng)維護過程不斷更新產(chǎn)生的各個索引文件;
步驟S2:然后,對所述步驟S1獲取的各個索引文件進行篩選分類后再進行索引文件合并處理,將分散的小索引文件合并為單一索引文件;
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于南京好魚科技有限公司,未經(jīng)南京好魚科技有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011313364.7/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 上一篇:一種采用列存儲的payload存儲方法
- 下一篇:一種智能移車機器人
- 基于Lucene和Solr實現(xiàn)全文檢索的方法
- 基于Lucene的光譜曲線檢索方法及引擎
- 一種基于海量數(shù)據(jù)類SQL檢索場景的自動識別優(yōu)化方法
- 一種針對海量數(shù)據(jù)全文檢索場景的實現(xiàn)方法
- 基于文法網(wǎng)絡(luò)和lucene的語義分析方法
- 一種地理信息要素的檢索方法、裝置、設(shè)備及存儲介質(zhì)
- 基于Lucene和文法網(wǎng)絡(luò)的聊天機器人及其實現(xiàn)方法
- 一種集合Lucene和Hbase的電力數(shù)據(jù)檢索系統(tǒng)
- 一種基于Lucene的預計算方法
- 一種實現(xiàn)Hbase二級索引的方法





