[發(fā)明專利]知識庫檢索實(shí)現(xiàn)方法在審
| 申請?zhí)枺?/td> | 201810522891.5 | 申請日: | 2018-05-28 |
| 公開(公告)號: | CN108804592A | 公開(公告)日: | 2018-11-13 |
| 發(fā)明(設(shè)計(jì))人: | 郭傳超;程林;楊培強(qiáng) | 申請(專利權(quán))人: | 山東浪潮商用系統(tǒng)有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 濟(jì)南信達(dá)專利事務(wù)所有限公司 37100 | 代理人: | 韓月娥 |
| 地址: | 250100 山東省濟(jì)南市*** | 國省代碼: | 山東;37 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 檢索 索引 知識庫 檢索效率 分詞 詞表 知識庫信息 類別建立 分塊 數(shù)據(jù)庫檢索技術(shù) 準(zhǔn)確度 磁盤系統(tǒng) 存儲索引 方式優(yōu)化 分類檢索 復(fù)合索引 搜索過程 索引過程 多文件 構(gòu)建 改進(jìn) 優(yōu)化 | ||
1.知識庫檢索實(shí)現(xiàn)方法,其特征在于, 改進(jìn)基于詞表的分詞技術(shù),對知識類別建立分塊索引,在內(nèi)存中構(gòu)建索引,使用本地磁盤系統(tǒng)做存儲索引,并使用多文件索引,不使用復(fù)合索引方式;所述知識庫檢索實(shí)現(xiàn)方法包括索引過程和搜索過程;
所述索引過程:對要搜索的原始內(nèi)容進(jìn)行索引構(gòu)建一個(gè)索引庫;索引過程包括:確定原始內(nèi)容即要搜索的內(nèi)容—》采集文檔--》創(chuàng)建數(shù)據(jù)集--》預(yù)處理分析數(shù)據(jù)--》生產(chǎn)索引--》構(gòu)建索引庫;
所述搜索過程:從索引庫中搜索內(nèi)容;搜索過程包括:用戶通過搜索界面—》輸入查詢--》查詢處理--》執(zhí)行搜索,從索引庫檢索--》運(yùn)用相關(guān)性計(jì)算--》渲染搜索結(jié)果--》結(jié)果輸出。
2.根據(jù)權(quán)利要求1所述知識庫檢索實(shí)現(xiàn)方法,其特征在于,所述索引過程:從命令行讀取文件名,將文件分路徑path字段和內(nèi)容body字段2個(gè)字段進(jìn)行存儲,并對內(nèi)容進(jìn)行全文索引;索引的單位是Document對象,每個(gè)Document對象包含多個(gè)字段Field對象;針對不同的字段屬性和數(shù)據(jù)輸出的需求,對字段選擇不同的索引或者存儲字段規(guī)則。
3.根據(jù)權(quán)利要求2所述知識庫檢索實(shí)現(xiàn)方法,其特征在于,所述檢索過程包含寫入流程、讀出流程;
所述寫入流程:將提供的源字符串寫入索引或?qū)⑵鋸乃饕袆h除;寫入流程具體為:源字符串首先經(jīng)過analyzer處理,包括:分詞過程;將源字符串中需要的信息加入Document的各個(gè)Field中,將需要索引的Field索引起來,將需要存儲的Field存儲起來。
4.根據(jù)權(quán)利要求3所述知識庫檢索實(shí)現(xiàn)方法,其特征在于,所述將需要存儲的Field存儲起來,是將索引寫入存儲器,存儲器為內(nèi)存或磁盤。
5.根據(jù)權(quán)利要求3所述知識庫檢索實(shí)現(xiàn)方法,其特征在于,所述分詞過程由分詞器完成,所述分詞器包括Reader、Tokenizer、TokenFilter、TokenStream;
所述分詞過程具體包括:所述Tokenizer負(fù)責(zé)接收Reader字節(jié)流,將Reader字節(jié)流進(jìn)行分詞操作,所述TokenFilter對已經(jīng)分詞的語匯單元進(jìn)行各種各樣的過濾操作;所述TokenStream存儲分詞的各種信息,通過tokenStream有效獲取到分詞單元信息。
6.根據(jù)權(quán)利要求5所述知識庫檢索實(shí)現(xiàn)方法,其特征在于,所述讀出流程:向用戶提供全文搜索服務(wù),通過關(guān)鍵詞定位源;讀出流程具體為:用戶提供搜索關(guān)鍵詞,經(jīng)過analyzer處理;對處理后的關(guān)鍵詞搜索索引找出對應(yīng)的Document;用戶根據(jù)需要從找到的Document中提取需要的Field。
7.根據(jù)權(quán)利要求6所述知識庫檢索實(shí)現(xiàn)方法,其特征在于,所述知識庫檢索實(shí)現(xiàn)方法涉及四種數(shù)據(jù)流,分別是文本流、Token流、字節(jié)流與查詢語句對象流;其中,
所述文本流表示對于索引目標(biāo)和交互控制的抽象,用來表示索引文件,用文本流向用戶輸出信息;所述Token流是對文字中詞的概念的抽象,是Lucene在建立索引時(shí)直接處理的最小單位;所述字節(jié)流是對文件抽象的直接操作的體現(xiàn),通過固定長度的字節(jié)流的處理將文件解脫出來;所述查詢語句對象流,用來對查詢語句抽象,通過類的繼承結(jié)構(gòu)反應(yīng)查詢語句的結(jié)構(gòu),將之傳送到查詢邏輯來進(jìn)行查找操作。
8.根據(jù)權(quán)利要求7所述知識庫檢索實(shí)現(xiàn)方法,其特征在于,所述文本流采用UCS-2作為編碼。
9.根據(jù)權(quán)利要求8所述知識庫檢索實(shí)現(xiàn)方法,其特征在于,所述索引過程的原理流程包括: W)有一系列被索引文件;X)被索引文件經(jīng)過語法分析和語言處理形成一系列詞;Y)經(jīng)過索引創(chuàng)建形成詞典和反向索引表;Z)通過索引存儲將索引寫入索引文件。
10.根據(jù)權(quán)利要求9所述知識庫檢索實(shí)現(xiàn)方法,其特征在于,所述搜索過程的原理流程包括:a)用戶輸入查詢語句;b)對查詢語句經(jīng)過語法分析和語言分析得到一系列詞;c)通過查詢語句分析得到一個(gè)查詢樹;d)通過索引文件將索引讀入到內(nèi)存;e)利用查詢樹搜索索引,得到每個(gè)詞的文檔鏈表,對文檔鏈表進(jìn)行交、差、并得到結(jié)果文檔;f)將搜索到的結(jié)果文檔對查詢的相關(guān)性進(jìn)行排序;g)返回查詢結(jié)果給用戶。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于山東浪潮商用系統(tǒng)有限公司,未經(jīng)山東浪潮商用系統(tǒng)有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810522891.5/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 同類專利
- 專利分類
G06F 電數(shù)字?jǐn)?shù)據(jù)處理
G06F17-00 特別適用于特定功能的數(shù)字計(jì)算設(shè)備或數(shù)據(jù)處理設(shè)備或數(shù)據(jù)處理方法
G06F17-10 .復(fù)雜數(shù)學(xué)運(yùn)算的
G06F17-20 .處理自然語言數(shù)據(jù)的
G06F17-30 .信息檢索;及其數(shù)據(jù)庫結(jié)構(gòu)
G06F17-40 .數(shù)據(jù)的獲取和記錄
G06F17-50 .計(jì)算機(jī)輔助設(shè)計(jì)





