[發明專利]一種基于分布式內存計算的文本檢索方法在審

申請號：	201711361106.4	申請日：	2017-12-18
公開（公告）號：	CN108009270A	公開（公告）日：	2018-05-08
發明（設計）人：	周紅衛;李亞瓊;劉延新;劉永波	申請（專利權）人：	江蘇潤和軟件股份有限公司
主分類號：	G06F17/30	分類號：	G06F17/30
代理公司：	暫無信息	代理人：	暫無信息
地址：	210041 江***	國省代碼：	江蘇;32
權利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關鍵詞：	一種基于分布式內存計算文本檢索方法
鉆瓜網技術展會專利詞庫專利權人專利榜在售專利公布日期熱門專利

【權利要求書】：

1.方法特征在于實現步驟如下：

（1）查詢語言到檢索模型的翻譯轉換：首先將SQL語句進行語法分析，找出其中的關鍵詞、表達式、映射、數據源等，生成語法樹，接著對語法樹進行規范校驗，之后將語法樹中的特定結構與數據庫的數據字典進行綁定，如數據源節點等，接下來對計劃樹結構進行優化，并從多個執行計劃中選擇最優的計劃，之后將執行計劃轉換為對數據處理的有向無環圖DAG，DAG包含了數據的處理流程和處理邏輯，DAG交給執行引擎作為作業生成、調度和執行的依據，最終返回結果；

（2）全文檢索模型的并行化：全文檢索模型描述了從數據源進行信息抽取，根據用戶輸入的查詢語句返回符合條件的結果列表的一系列步驟，通常包括數據源讀取、數據格式的規范化、分詞和索引、索引寫入文件、讀取索引、查詢、返回結果；

（3）存儲模型與檢索優化：在建立索引階段，提出兩類存儲模型即擁有高查詢性能的全量索引存儲模型和極低索引存儲量的索引指定列存儲模型；在查詢階段，基于索引指定列存儲模型，提出了能夠將查詢結果與原表數據進行連接；基于兩類存儲模型提出了對索引數據進行查詢時的列裁剪以及謂詞下推策略，其中，謂詞下推優化技術將過濾條件下推至索引的查詢階段，列裁剪應用于查詢結果的數據裁剪階段。

下載完整專利技術內容需要扣除積分，VIP會員可以免費下載。

免登錄下載普通用戶下載升級VIP會員，免費下載

該專利技術資料僅供研究查看技術是否侵權等信息，商用須獲得專利權人授權。該專利全部權利屬于江蘇潤和軟件股份有限公司，未經江蘇潤和軟件股份有限公司許可，擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作，請聯系【客服】

本文鏈接：http://www.szxzyx.cn/pat/books/201711361106.4/1.html，轉載請聲明來源鉆瓜專利網。