[發(fā)明專利]一種基于Lucene的桌面搜索系統(tǒng)及方法有效
| 申請?zhí)枺?/td> | 201210280166.4 | 申請日: | 2012-08-08 |
| 公開(公告)號: | CN102819592B | 公開(公告)日: | 2012-12-12 |
| 發(fā)明(設(shè)計)人: | 馮鈞;胡小克;聶妮;付言章;唐志賢;卞一路;盛震宇;許瀟;徐黎明;史涯晴 | 申請(專利權(quán))人: | 河海大學(xué) |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 南京蘇高專利商標(biāo)事務(wù)所(普通合伙) 32204 | 代理人: | 柏尚春 |
| 地址: | 210098 *** | 國省代碼: | 江蘇;32 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 lucene 桌面 搜索 系統(tǒng) 方法 | ||
技術(shù)領(lǐng)域
本發(fā)明涉及一種基于Lucene的桌面搜索系統(tǒng)及方法,屬于信息技術(shù)處理領(lǐng)域。
背景技術(shù)
信息爆炸的時代,硬盤容量不斷增大,本地文件系統(tǒng)目錄結(jié)構(gòu)越來越復(fù)雜,文件數(shù)量越來越龐大,對文件快速搜索的需要也越來越迫切,桌面搜索應(yīng)運而生。桌面搜索,是一種個人計算機上存儲的信息進行索引、查找的檢索工具,面向個人文檔管理,在個人信息管理領(lǐng)域中受到用戶的歡迎。
目前較為成熟的桌面搜索引擎有Google?Desktop?Search、百度硬盤搜索、網(wǎng)絡(luò)豬、微軟桌面搜索等商用免費軟件,其功能較為強大,但是建立索引需要時間長,更新索引速度慢,索引實時性不高,硬盤等系統(tǒng)資源占用率高。另外由于商業(yè)利益存在,桌面搜索系統(tǒng)涉及用戶本地磁盤文件,用戶安全性和可擴展性受到限制,從用戶體驗、索引實時性和系統(tǒng)資源占用率上來說,都有很大的欠缺。
發(fā)明內(nèi)容
發(fā)明目的:針對現(xiàn)有技術(shù)中存在的問題,本發(fā)明提供一種實時性好、占用資源少的基于Lucene的桌面搜索系統(tǒng)及方法。
技術(shù)方案:一種基于Lucene的桌面搜索系統(tǒng),所述系統(tǒng)在Lucene的基礎(chǔ)上擴充了中文處理和文本分析功能,包括四個模塊:
索引文件構(gòu)建模塊,用于系統(tǒng)第一次啟動時為存儲在磁盤上包含文本信息的文件建立倒排索引;
索引文件實時更新模塊,用于實現(xiàn)對文件刪除與修改等操作監(jiān)控與索引更新,確保文件與索引信息一致;
索引文件定時更新模塊,用于當(dāng)系統(tǒng)停止運行時間達(dá)到規(guī)定值時重新掃描磁盤上包含文本信息的文件,更新索引文件;
用戶交互模塊,用于接收用戶的查詢請求,并進行相似度計算,將查詢結(jié)果由高到低排列返回給用戶。
一種基于Lucene的桌面搜索方法,包括以下步驟:
步驟1,若系統(tǒng)在計算機上第一次啟動,則進入步驟2,否則進入步驟4;
步驟2,掃描本地磁盤的所有文件,根據(jù)文件擴展名識別出word、pdf、html等各種包含文本信息的文件,提取文本和元數(shù)據(jù);
步驟3,為文本文件建立倒排索引和索引文件列表,所述索引文件列表記錄文本文件的路徑和修改時間;進入步驟5;
步驟4,查看系統(tǒng)停止運行時間,更新索引和索引文件列表。具體包括以下步驟:
步驟4-1,判斷系統(tǒng)停止運行時間是否達(dá)到規(guī)定值:
若停止運行時間已經(jīng)達(dá)到規(guī)定值,進入步驟4-2;
若停止運行時間沒有達(dá)到規(guī)定值,進入步驟4-3;
步驟4-2,重新掃描存儲在磁盤上包含文本信息的文件,獲取文本文件后,與索引文件列表相比較,分析文件在系統(tǒng)停止運行期間發(fā)生的變化;
步驟4-3,實時監(jiān)聽系統(tǒng)文件變化,包括:文件創(chuàng)建、文件修改、文件刪除和文件重命名;
步驟4-4,獲取文件變化后,更新索引和索引文件列表中相應(yīng)的信息,確保文件和索引信息一致;
步驟5,接受用戶的查詢請求,允許用戶指定要查找的文件類型和文件修改時間的范圍;
步驟6,獲得用戶的查詢請求后,將查詢請求按照詞典分詞進行切分處理,讀取經(jīng)切分處理后的詞對應(yīng)的倒排索引信息,利用索引計算查詢與文件的相似度,將查詢結(jié)果由高到低排列返回給用戶。
所述步驟2分析包含文本信息的文件時,實現(xiàn)Lucene的解析文本的接口,通過配置文件,使用不同的解析器處理不同格式的文本以提取文本和元數(shù)據(jù)。
所述步驟2分析包含文本信息的文件時,使用IKAnalyzer分詞器處理中文,結(jié)合詞典分詞和文法分析算法拆分文本信息。
所述步驟4-2獲取文本文件后,與索引文件列表相比較,為不在索引文件列表中的文本文件創(chuàng)建索引,更新修改時間在索引文件列表中記錄的時間之后的文本文件的索引信息,刪除索引文件列表中存在但磁盤上不存在的文本文件的索引信息。
本發(fā)明與現(xiàn)有技術(shù)相比,具有的有益效果是:
本發(fā)明是一種基于Lucene的桌面搜索系統(tǒng)及方法,索引文件格式獨立于應(yīng)用平臺,在傳統(tǒng)全文檢索引擎的倒排索引的基礎(chǔ)上實現(xiàn)了分塊索引,提升索引速度。在Lucene的面向?qū)ο蟮南到y(tǒng)架構(gòu)上,方便擴充新功能,便于后續(xù)的維護和升級。本發(fā)明的兩種索引文件更新方法用于獲取系統(tǒng)文件變化,確保文件和索引信息的一致,擁有較高的查全率和查準(zhǔn)率。
附圖說明
圖1為本發(fā)明實施例的系統(tǒng)框圖;
圖2為本發(fā)明實施例的方法流程圖;
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于河海大學(xué),未經(jīng)河海大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201210280166.4/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 上一篇:變坡膠帶運輸機
- 下一篇:一種人造革用離型涂料及利用該離型涂料制備的離型紙
- 基于Lucene和Solr實現(xiàn)全文檢索的方法
- 基于Lucene的光譜曲線檢索方法及引擎
- 一種基于海量數(shù)據(jù)類SQL檢索場景的自動識別優(yōu)化方法
- 一種針對海量數(shù)據(jù)全文檢索場景的實現(xiàn)方法
- 基于文法網(wǎng)絡(luò)和lucene的語義分析方法
- 一種地理信息要素的檢索方法、裝置、設(shè)備及存儲介質(zhì)
- 基于Lucene和文法網(wǎng)絡(luò)的聊天機器人及其實現(xiàn)方法
- 一種集合Lucene和Hbase的電力數(shù)據(jù)檢索系統(tǒng)
- 一種基于Lucene的預(yù)計算方法
- 一種實現(xiàn)Hbase二級索引的方法





