[發明專利]一種基于索引分片均衡的大數據云搜索系統及其方法有效
| 申請號: | 201610937723.3 | 申請日: | 2016-10-25 |
| 公開(公告)號: | CN106528683B | 公開(公告)日: | 2018-04-06 |
| 發明(設計)人: | 蔡敘明 | 申請(專利權)人: | 深圳市盛凱信息科技有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 518000 廣東省深圳市福田區車公*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 索引 分片 均衡 數據 搜索 平臺 及其 方法 | ||
1.一種基于索引分片均衡的大數據云搜索系統,其特征在于,包括:
Apache Lucene引擎單元,基于Apache Lucene的搜索引擎架構,包括分析器、索引編寫器以及查詢引擎模塊;分析器獲得由各種類型的數據源文件轉化的源文本數據,通過分析處理將源文本數據轉換為標記;索引編寫器用于生成和管理索引,將由分析器轉換而成的標記保存在索引的數據結構之中,所生成的索引的文件形式為索引分片,臨時緩存索引分片并將所述索引分片提供給節點集群進行存儲;所述索引分片包括主索引分片和至少一個副本索引分片;每個索引分片具有自身的索引分片ID;查詢引擎模塊進一步包括查詢解析器和索引搜索器;查詢解析器用于將用戶輸入的關鍵詞、詞組、短句等查詢條件通過調用分析器轉換為查詢條件項,索引搜索器基于轉換而來的查詢條件項,向節點集群發起查詢請求;索引搜索器獲得節點集群的反饋結果,并根據該反饋結果確定索引分片與查詢條件項的匹配程度,產生分數,并按照分數的排序返回搜索結果;
節點集群,包括若干節點,所述節點用于存儲由Apache Lucene引擎單元提供的索引分片,并承擔索引分片被查詢調用的負荷;節點集群接收所述查詢請求,根據該查詢請求所指向的索引分片,將查詢請求分配給存儲相應的索引分片的節點,由該節點響應該查詢請求而在查詢請求所指向的索引分片中完成查詢相關的計算,生成反饋結果;
索引分片分析單元,用于為索引分片生成內容標識符;
索引分片分配管理單元,包括索引分片分配記錄模塊、節點能力狀態管理模塊和分配方案確定模塊;其中
索引分片分配記錄模塊,用于為節點集群中的每一個節點生成并存儲一個索引分片分配記錄表,索引分片分配記錄表記錄了在本節點上承擔的每個索引分片的相關信息,所述相關信息中包括索引分片的索引分片ID、內容標識符、熱度等級以及主副標識;
節點能力狀態管理模塊,用于實時從集群的各節點獲得節點處理能力參數,并通過節點能力狀態列表對各節點實時的節點處理能力參數進行保存;
分配方案確定模塊,獲取當前待分配的索引分片的索引分片ID;根據所獲取的當前待分配的索引分片的索引分片ID,統計當前分布在各熱度等級上的待分配索引分片的數量;確定集群中的可用節點及其節點號;通過查詢所述節點能力狀態列表當中各個可用節點的節點處理能力參數,決定各可用節點在各熱度等級上分別承擔的待分配索引分片的承擔數量;按照該承擔數量將各熱度等級上的待分配索引分片分派給可用節點,形成分配方案;分配方案包括可用節點的節點號和每個可用節點被分配的索引分片的索引分片ID;將分配方案傳輸給Apache Lucene引擎單元和索引分片分配記錄模塊;
并且,索引分片分配記錄模塊則根據分配方案,更新每個節點的索引分片分配記錄表;
Apache Lucene引擎單元根據所述分配方案,將分配方案中的索引分片ID對應的索引分片傳輸給相應節點號的可用節點進行存儲和承擔,或,將涉及分配方案中的索引分片的查詢請求重定位到指向分配方案中與該索引分片對應的節點。
2.根據權利要求1所述的大數據云搜索系統,其特征在于,分配方案確定模塊在按照所述承擔數量將各熱度等級上的待分配索引分片分派給可用節點時,還進一步獲得待分配的索引分片的內容標識符;根據待分配的索引分片的內容標識符,確定待分配的索引分片之間的內容相關度,從而使被分配在同一可用節點的待分配的索引分片之間的內容相關度最小化而生成所述分配方案。
3.根據權利要求2所述的大數據云搜索系統,其特征在于,所述索引分片分析單元所生成的內容標識符包括數據源文件標識符與關鍵詞標識符;其中,由同一個數據源文件或同一系列的數據源文件所生成的各索引分片具有相同的數據源文件標識符;所述索引分片分析單元分析每個索引分片存儲的標記信息,從中提取關鍵詞作為關鍵詞標識符。
4.根據權利要求3所述的大數據云搜索系統,其特征在于,分配方案確定模塊確定每兩個待分配的索引分片之間的內容相關度,可按下述公式進行確定:
R=a1·S+a2·K
其中R是表示兩個待分配的索引分片之間的內容相關度的量化參數;S是根據兩個待分配索引分片的數據源文件標識符評估的相關度量化參數;K表示根據兩個待分配索引分片的關鍵詞標識符的重合度所評估的相關度量化參數,a1與a2是加權求和系數。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于深圳市盛凱信息科技有限公司,未經深圳市盛凱信息科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201610937723.3/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種呼叫中心大數據文本挖掘系統
- 下一篇:一種建立工程材料數據庫的方法及系統





