[發明專利]一種基于hdfs存儲且用lucene做索引的文件存儲方法在審
| 申請號: | 202011313364.7 | 申請日: | 2020-11-20 |
| 公開(公告)號: | CN112231437A | 公開(公告)日: | 2021-01-15 |
| 發明(設計)人: | 母延年 | 申請(專利權)人: | 南京好魚科技有限公司 |
| 主分類號: | G06F16/31 | 分類號: | G06F16/31;G06F16/33;G06F16/182 |
| 代理公司: | 南京中軟知識產權代理事務所(特殊普通合伙) 32466 | 代理人: | 鄭燕飛 |
| 地址: | 210000 江蘇省南京市江寧區董*** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 hdfs 存儲 lucene 索引 文件 方法 | ||
1.一種基于hdfs存儲且用lucene做索引的文件存儲方法,其特征在于,具體包括如下:
步驟S1:首先,搭建索引系統并獲取Lucene分布式索引系統維護過程不斷更新產生的各個索引文件;
步驟S2:然后,對所述步驟S1獲取的各個索引文件進行篩選分類后再進行索引文件合并處理,將分散的小索引文件合并為單一索引文件;
步驟S3:對所述步驟S2中的類型為tim、tip、doc、dvd、dvm、fdx、pay以及pos的文件均合并為一個文件;
步驟S4:將所述步驟S3的文件按照順序規則存放起來;
步驟S5:對所述步驟S4存放數據進行數據驗證,經過驗證合并后的文件可以正常的讀取后進行最終存儲,至此完成文件的存儲處理。
2.根據權利要求1所述的一種基于hdfs存儲且用lucene做索引的文件存儲方法,其特征在于:所述步驟S1中獲取的文件數據包括實時數據以及離線數據,并通過建立索引后存放在hdfs系統上。
3.根據權利要求1所述的一種基于hdfs存儲且用lucene做索引的文件存儲方法,其特征在于:所述步驟S1中獲取的分布式索引系統維護索引文件包括添加、刪除以及合并操作的數據文件。
4.根據權利要求1所述的一種基于hdfs存儲且用lucene做索引的文件存儲方法,其特征在于:所述步驟S5中是通過采用IndexReader驗證其文件可讀性。
5.根據權利要求1所述的一種基于hdfs存儲且用lucene做索引的文件存儲方法,其特征在于:所述步驟S4中的存放順序規則為從文件頭開始存儲所有合并后的文件,具體為所有的tim文件合并后存儲到該文件的頭部位置,所有的tip文件合并后存儲到該文件的上述合并后tim文件的后方位置,然后按照tim、tip、doc、dvd、dvm、fdx、pay以及pos以此類推進行排隊處理并依序存儲,且在文件結尾10KB存儲各個文件的偏移量。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于南京好魚科技有限公司,未經南京好魚科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011313364.7/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種采用列存儲的payload存儲方法
- 下一篇:一種智能移車機器人





