[發(fā)明專利]知識庫檢索實(shí)現(xiàn)方法在審

申請?zhí)枺?/td>	201810522891.5	申請日：	2018-05-28
公開（公告）號：	CN108804592A	公開（公告）日：	2018-11-13
發(fā)明（設(shè)計(jì)）人：	郭傳超;程林;楊培強(qiáng)	申請（專利權(quán)）人：	山東浪潮商用系統(tǒng)有限公司
主分類號：	G06F17/30	分類號：	G06F17/30
代理公司：	濟(jì)南信達(dá)專利事務(wù)所有限公司 37100	代理人：	韓月娥
地址：	250100 山東省濟(jì)南市***	國省代碼：	山東;37
權(quán)利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關(guān)鍵詞：	檢索索引知識庫檢索效率分詞詞表知識庫信息類別建立分塊數(shù)據(jù)庫檢索技術(shù) 準(zhǔn)確度磁盤系統(tǒng) 存儲索引方式優(yōu)化分類檢索復(fù)合索引搜索過程索引過程多文件構(gòu)建改進(jìn) 優(yōu)化
鉆瓜網(wǎng) 技術(shù)展會(huì) 專利詞庫專利權(quán)人專利榜在售專利公布日期熱門專利

【權(quán)利要求書】：

1.知識庫檢索實(shí)現(xiàn)方法，其特征在于, 改進(jìn)基于詞表的分詞技術(shù)，對知識類別建立分塊索引，在內(nèi)存中構(gòu)建索引，使用本地磁盤系統(tǒng)做存儲索引，并使用多文件索引，不使用復(fù)合索引方式；所述知識庫檢索實(shí)現(xiàn)方法包括索引過程和搜索過程；

所述索引過程：對要搜索的原始內(nèi)容進(jìn)行索引構(gòu)建一個(gè)索引庫；索引過程包括：確定原始內(nèi)容即要搜索的內(nèi)容—》采集文檔--》創(chuàng)建數(shù)據(jù)集--》預(yù)處理分析數(shù)據(jù)--》生產(chǎn)索引--》構(gòu)建索引庫；

所述搜索過程：從索引庫中搜索內(nèi)容；搜索過程包括：用戶通過搜索界面—》輸入查詢--》查詢處理--》執(zhí)行搜索，從索引庫檢索--》運(yùn)用相關(guān)性計(jì)算--》渲染搜索結(jié)果--》結(jié)果輸出。

2.根據(jù)權(quán)利要求1所述知識庫檢索實(shí)現(xiàn)方法，其特征在于，所述索引過程：從命令行讀取文件名，將文件分路徑path字段和內(nèi)容body字段2個(gè)字段進(jìn)行存儲，并對內(nèi)容進(jìn)行全文索引；索引的單位是Document對象，每個(gè)Document對象包含多個(gè)字段Field對象；針對不同的字段屬性和數(shù)據(jù)輸出的需求，對字段選擇不同的索引或者存儲字段規(guī)則。

3.根據(jù)權(quán)利要求2所述知識庫檢索實(shí)現(xiàn)方法，其特征在于，所述檢索過程包含寫入流程、讀出流程；

所述寫入流程：將提供的源字符串寫入索引或?qū)⑵鋸乃饕袆h除；寫入流程具體為：源字符串首先經(jīng)過analyzer處理，包括：分詞過程；將源字符串中需要的信息加入Document的各個(gè)Field中，將需要索引的Field索引起來，將需要存儲的Field存儲起來。

4.根據(jù)權(quán)利要求3所述知識庫檢索實(shí)現(xiàn)方法，其特征在于，所述將需要存儲的Field存儲起來，是將索引寫入存儲器，存儲器為內(nèi)存或磁盤。

5.根據(jù)權(quán)利要求3所述知識庫檢索實(shí)現(xiàn)方法，其特征在于，所述分詞過程由分詞器完成，所述分詞器包括Reader、Tokenizer、TokenFilter、TokenStream；

所述分詞過程具體包括：所述Tokenizer負(fù)責(zé)接收Reader字節(jié)流，將Reader字節(jié)流進(jìn)行分詞操作，所述TokenFilter對已經(jīng)分詞的語匯單元進(jìn)行各種各樣的過濾操作；所述TokenStream存儲分詞的各種信息，通過tokenStream有效獲取到分詞單元信息。

6.根據(jù)權(quán)利要求5所述知識庫檢索實(shí)現(xiàn)方法，其特征在于，所述讀出流程：向用戶提供全文搜索服務(wù)，通過關(guān)鍵詞定位源；讀出流程具體為：用戶提供搜索關(guān)鍵詞，經(jīng)過analyzer處理；對處理后的關(guān)鍵詞搜索索引找出對應(yīng)的Document；用戶根據(jù)需要從找到的Document中提取需要的Field。

7.根據(jù)權(quán)利要求6所述知識庫檢索實(shí)現(xiàn)方法，其特征在于，所述知識庫檢索實(shí)現(xiàn)方法涉及四種數(shù)據(jù)流，分別是文本流、Token流、字節(jié)流與查詢語句對象流；其中，

所述文本流表示對于索引目標(biāo)和交互控制的抽象，用來表示索引文件，用文本流向用戶輸出信息；所述Token流是對文字中詞的概念的抽象，是Lucene在建立索引時(shí)直接處理的最小單位；所述字節(jié)流是對文件抽象的直接操作的體現(xiàn)，通過固定長度的字節(jié)流的處理將文件解脫出來；所述查詢語句對象流，用來對查詢語句抽象，通過類的繼承結(jié)構(gòu)反應(yīng)查詢語句的結(jié)構(gòu)，將之傳送到查詢邏輯來進(jìn)行查找操作。

8.根據(jù)權(quán)利要求7所述知識庫檢索實(shí)現(xiàn)方法，其特征在于，所述文本流采用UCS-2作為編碼。

9.根據(jù)權(quán)利要求8所述知識庫檢索實(shí)現(xiàn)方法，其特征在于，所述索引過程的原理流程包括: W)有一系列被索引文件；X)被索引文件經(jīng)過語法分析和語言處理形成一系列詞；Y)經(jīng)過索引創(chuàng)建形成詞典和反向索引表；Z)通過索引存儲將索引寫入索引文件。

10.根據(jù)權(quán)利要求9所述知識庫檢索實(shí)現(xiàn)方法，其特征在于，所述搜索過程的原理流程包括：a)用戶輸入查詢語句；b)對查詢語句經(jīng)過語法分析和語言分析得到一系列詞；c)通過查詢語句分析得到一個(gè)查詢樹；d)通過索引文件將索引讀入到內(nèi)存；e)利用查詢樹搜索索引，得到每個(gè)詞的文檔鏈表，對文檔鏈表進(jìn)行交、差、并得到結(jié)果文檔；f)將搜索到的結(jié)果文檔對查詢的相關(guān)性進(jìn)行排序；g)返回查詢結(jié)果給用戶。

下載完整專利技術(shù)內(nèi)容需要扣除積分，VIP會(huì)員可以免費(fèi)下載。

免登錄下載普通用戶下載升級VIP會(huì)員，免費(fèi)下載

該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息，商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于山東浪潮商用系統(tǒng)有限公司，未經(jīng)山東浪潮商用系統(tǒng)有限公司許可，擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作，請聯(lián)系【客服】

本文鏈接：http://www.szxzyx.cn/pat/books/201810522891.5/1.html，轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。

上一篇：一種病歷文本的文本分類方法及裝置
下一篇：基于圖譜和可達(dá)路徑數(shù)的無向加權(quán)圖的子圖查詢方法

同類專利

專利分類

G 物理

G06 計(jì)算；推算；計(jì)數(shù)
G06F 電數(shù)字?jǐn)?shù)據(jù)處理
G06F17-00 特別適用于特定功能的數(shù)字計(jì)算設(shè)備或數(shù)據(jù)處理設(shè)備或數(shù)據(jù)處理方法
G06F17-10 .復(fù)雜數(shù)學(xué)運(yùn)算的
G06F17-20 .處理自然語言數(shù)據(jù)的
G06F17-30 .信息檢索；及其數(shù)據(jù)庫結(jié)構(gòu)
G06F17-40 .數(shù)據(jù)的獲取和記錄
G06F17-50 .計(jì)算機(jī)輔助設(shè)計(jì)

免登錄下載普通用戶下載升級VIP會(huì)員，免費(fèi)下載

專利文獻(xiàn)下載

說明：

1、專利原文基于中國國家知識產(chǎn)權(quán)局專利說明書；

2、支持發(fā)明專利、實(shí)用新型專利、外觀設(shè)計(jì)專利（升級中）；

3、專利數(shù)據(jù)每周兩次同步更新，支持Adobe PDF格式；

4、內(nèi)容包括專利技術(shù)的結(jié)構(gòu)示意圖、流程工藝圖或技術(shù)構(gòu)造圖；

5、已全新升級為極速版,下載速度顯著提升！歡迎使用！

請您登陸后，進(jìn)行下載，點(diǎn)擊【登陸】【注冊】