[發明專利]一種基于hadoop的通用創建索引方法及系統有效
| 申請號: | 201310738719.0 | 申請日: | 2013-12-26 |
| 公開(公告)號: | CN103678691B | 公開(公告)日: | 2016-11-30 |
| 發明(設計)人: | 王冬杰 | 申請(專利權)人: | 世紀禾光科技發展(北京)有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 北京慶峰財智知識產權代理事務所(普通合伙) 11417 | 代理人: | 劉元霞 |
| 地址: | 100088*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 hadoop 通用 創建 索引 方法 系統 | ||
技術領域
本發明涉及數據管理領域,特別涉及一種基于hadoop的創建索引方法和系統。
背景技術
隨著信息化進程的加快,傳統的集中式數據存儲與處理方法已經無法滿足海量空間數據及其查詢處理的需求。云計算技術是近年來計算機領域出現的具有很好可擴展性的處理大規模計算的新技術,其屬于建立在大量成本較低的硬件之上的分布式文件系統,能提供高吞吐量的數據訪問;MapReduce并行計算框架將大量的數據操作分散給各個計算節點并行處理,達到提高整個云計算平臺處理能力的目的。云計算所具備的高伸縮性、高擴展性、高容錯性和強大并行處理能力使其成為海量數據高效存儲與處理的理想方案。作為開源的云計算平臺,hadoop以其擴容能力強、成本低廉、效率高、高可靠性、免費及良好的可移植性等優點,迅速成為當前主流的分布式計算框架和大規模數據存儲解決方案。hadoop作為云存儲平臺,由一個NameNode和多個DataNode組成,其中NameNode負責管理文件系統名稱空間和控制外部客戶端的訪問,DataNode負責存儲數據。
隨著電子商務的復雜化,平臺中的多種海量數據要實現針對不同應用目的的信息檢索,而隨著需要檢索信息種類的增加,不斷為每種數據搭建檢索系統的項目;同時,為了將每種數據能夠在不同的檢索系統中檢索到,就需要針對每種數據的搜索系統分別建立索引,而建立索引的過程需要信息的支持如:手工編寫原始數據信息在索引中的類型,數據信息名稱等信息,這就要求開發搜索服務項目時,需要了解業務數據信息與其特點,以及檢索過程的要求。
根據每種數據獨立實現建立索引存在固有的弊端:索引過程需要開發搜索功能,需要侵入業務系統,了解業務特點,數據特點,以及數據邏輯關系。對于每種類型的數據,建立索引的過程,需要單獨部署服務,需要單獨開發索引項目,業務復雜程度也大大影響了索引過程和搜索開發。此外,對于業務類型多,同時,每種業務都是海量數據的情況,需要部署的服務器增多,每種數據的建立索引的工程和服務器不能充分共用,造成了資源浪費。
發明內容
為解決上述現有技術所存在的問題,本發明提出了一種通用的建立索引方法,以及建立在此方法上的系統。由調用和使用檢索系統的服務,按照通用索引系統要求,準備標準格式數據放置于hadoop的HDFS文件系統中,然后,通過在配置文件中配置數據中各列的索引方式,再通過通用索引服務,使用hadoop的分布式方式創建索引。
本發明采用如下技術方案:一種基于hadoop的創建索引的方法,包括業務端服務將待索引數據載入HDFS文件系統,根據對所述數據和索引方式的配置,在該系統中分布式創建索引。
優選地,該方法包括以下步驟:
步驟一、檢索和存儲數據;
步驟二、配置和數據路徑指定;
步驟三、導入配置索引配置文件和數據解析格式;
步驟四、分布式讀取數據和寫入索引;
步驟五、合并索引。
優選地,其中所述檢索和存儲數據包括:
業務端服務通過hadoop定期從業務數據中組織檢索服務需要的數據,
將檢索到的數據信息匯總整理成單條數據,并以通用的JSON格式,存儲到hadoop文件系統中的預定義存儲目錄,
在所述存儲目錄中,將所有數據按照特定邏輯分割成多個塊,然后存儲到所述存儲目錄下的子目錄中,以支持后續的索引創建服務的多任務執行。
優選地,所述數據的JSON格式可以根據數據的實際信息量來確定。
優選地,其中所述配置和數據路徑指定包括在通用索引系統中配置數據信息,以及數據中的信息索引方式。
優選地,其中所述在通用索引系統中配置數據信息,以及數據中的信息索引方式包括,配置導入數據的索引方式,具體包括:
根據單行數據中的每列的檢索屬性,在schema文件中配置對應的屬性域信息,包括配置描述數據信息寫索引時的約束,
完成文件系統數據到索引數據之間的轉換,
將完成的上述配置上傳到hadoop文件系統中,用于建立索引。
優選地,其中所述數據信息寫索引時的約束包括:
name項,用于描述該條數據中屬性域的名稱是ic,
type項,用于描述數據索引的類型,
indexed項,用于描述此條數據中屬性域是否參與索引,
stored項,用于描述此條數據中屬性域是否參與存儲,
required項,用于描述本屬性域是否為必需項。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于世紀禾光科技發展(北京)有限公司,未經世紀禾光科技發展(北京)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201310738719.0/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:鐵路綜合貫通地線及其地線泄流單元單體
- 下一篇:一種遙控器





