[發明專利]一種大數據檢索平臺有效
| 申請號: | 201710455589.8 | 申請日: | 2017-06-16 |
| 公開(公告)號: | CN107180113B | 公開(公告)日: | 2020-12-29 |
| 發明(設計)人: | 王琛 | 申請(專利權)人: | 成都億橙科技有限公司 |
| 主分類號: | G06F16/2453 | 分類號: | G06F16/2453;G06F16/27;G06F9/50;G06F11/14;G06F16/31;G06F40/289 |
| 代理公司: | 成都行之專利代理事務所(普通合伙) 51220 | 代理人: | 郭受剛 |
| 地址: | 610000 四川省成都*** | 國省代碼: | 四川;51 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 數據 檢索 平臺 | ||
1.一種大數據檢索平臺,其特征在于,所述平臺包括:數據適配模塊、數據索引模塊、云檢索控制模塊、擴展支持模塊、檢索定制API模塊;所述數據索引模塊包括多個索引服務器和多個數據分發服務器,用于實現數據的高并發處理;
數據適配模塊,用于實時獲取多種類型的數據,并將獲取的數據存入數據庫中;
數據索引模塊,用于對數據進行格式轉換、將待索引數據分發至索引服務器、將數據寫入數據隊列、對隊列中的數據執行索引、將新追加的索引同步到索引庫、定時對歷史數據進行清理;寫入索引時,按照預定義的冗余規則,對數據形成多份寫入,同一條數據,分別寫入不同的兩臺或更多索引服務器;
云檢索控制模塊,用于整合各檢索服務器的統一計算能力,完成檢索響應;
擴展支持模塊,用于對平臺進行擴展支持;
檢索定制API模塊,用于進行接口定制,與上層系統對接,其中,平臺中的每個模塊由不同的服務器來完成該模塊的功能;
數據適配模塊包括若干數據適配器,所述平臺中多個數據分發服務器上都部署數據適配器,調整數據適配參數,以一對多的形式,每臺數據分發服務器指定向某幾臺數據源服務器獲取數據,將獲取后的源數據分散到各索引服務器進行索引;
所述平臺設有多個云檢索控制模塊,云檢索控制模塊上部署有負載均衡模塊;負載均衡模塊之間采用P2P進行連接;當請求發送到任意一臺云檢索控制模塊時,負載均衡模塊將請求轉發到當前資源占用最少的云檢索控制模塊;
所述平臺采用分布式并行運算方式,通過對分布式部署進行復制,所述平臺搭配兩臺請求分發服務器,分發請求到各個分布式部署;
云檢索控制模塊中包括多個檢索服務器,將索引進行拆分平均分配到多個檢索服務器,通過調整索引服務器分割粒子,重新分配各檢索服務器HashCode范圍,進一步實現數據高并發處理;在索引服務器上,逐個對檢索服務器進行Master/Slave標識;索引服務器在將索引同步到Master檢索服務器的同時,對Slave檢索服務器進行同步;云檢索控制模塊根據Master/Slave標識對檢索服務器進行分組,均勻的將請求發送到各個分組,進一步實現數據高并發處理;
云檢索控制模塊處理檢索請求時,并行向多個檢索服務器發出檢索指令,等待最后一個檢索服務器返回后,對數據按照請求參數進行相關度或字段排序,返回給上層應用。
2.根據權利要求1所述的大數據檢索平臺,其特征在于,所述擴展支持模塊具體用于:
數據冗余:將數據按預設規則在數據源服務器中形成備份;
負載均衡:在數據檢索請求高并發時,將請求均勻的分發給各檢索服務器;
高速緩存:將某一時間段內頻繁檢索的數據放入高速緩存序列;
數據靜態化:對執行過2次以上的歷史檢索數據,將數據源作為序列化文件存放在本地硬盤,再次檢索時直接返回反序列化對象;
連接池:將連接信息緩存在內存中;
統計分析定制:根據需求對統計分析需求進行定制;
平臺狀態查詢:平臺管理員通過圖形化界面,查詢平臺中各服務器以及服務的運行情況;
平臺穩定性測試:在預定的時間間隔后,自動對平臺各部件進行穩定性測試;
故障通知服務:平臺自動進行穩定性測試,若發現異常,將故障通知給平臺管理員。
3.根據權利要求1所述的大數據檢索平臺,其特征在于,所述數據索引模塊的索引步驟包括:
根據數據類型特點,采用預定義的分詞方式對實體數據進行分詞;
對分詞后的標識信息進行倒排序索引;
存放索引標識和原始數據;
其中,對分詞后的標識信息進行倒排序索引具體包括:
通過倒排索引,根據單詞獲取包含該單詞的文檔列表;倒排索引包括:單詞詞典、倒排列表、倒排文件;
單詞詞典:搜索引擎的索引單位是單詞,單詞詞典為由文檔集合中出現過的所有單詞構成的字符串集合,單詞詞典內每條索引項記載單詞本身的信息以及指向倒排列表的指針;
倒排列表:倒排列表記載了出現過某個單詞的所有文檔的文檔列表及單詞在該文檔中出現的位置信息,每條記錄稱為一個倒排項;根據倒排列表,即可獲知哪些文檔包含某個單詞;
倒排文件:所有單詞的倒排列表存儲在磁盤的倒排文件中,倒排文件是存儲倒排索引的物理文件。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于成都億橙科技有限公司,未經成都億橙科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710455589.8/1.html,轉載請聲明來源鉆瓜專利網。
- 數據顯示系統、數據中繼設備、數據中繼方法、數據系統、接收設備和數據讀取方法
- 數據記錄方法、數據記錄裝置、數據記錄媒體、數據重播方法和數據重播裝置
- 數據發送方法、數據發送系統、數據發送裝置以及數據結構
- 數據顯示系統、數據中繼設備、數據中繼方法及數據系統
- 數據嵌入裝置、數據嵌入方法、數據提取裝置及數據提取方法
- 數據管理裝置、數據編輯裝置、數據閱覽裝置、數據管理方法、數據編輯方法以及數據閱覽方法
- 數據發送和數據接收設備、數據發送和數據接收方法
- 數據發送裝置、數據接收裝置、數據收發系統、數據發送方法、數據接收方法和數據收發方法
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置





