[發明專利]在數字圖書館中所采用的檢索系統和檢索方法有效
| 申請號: | 200610072075.6 | 申請日: | 2006-04-06 |
| 公開(公告)號: | CN101051309A | 公開(公告)日: | 2007-10-10 |
| 發明(設計)人: | 廖祥文;孫健;王斌;楊東波;程學旗 | 申請(專利權)人: | 中國科學院計算技術研究所 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30;H04L29/06 |
| 代理公司: | 中科專利商標代理有限責任公司 | 代理人: | 朱進桂 |
| 地址: | 100080北京*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 數字圖書館 采用 檢索系統 檢索 方法 | ||
技術領域
本發明涉及信息檢索領域,更具體地,涉及一種在數字圖書館中所采用的檢索系統和檢索方法,能夠高效地進行檢索且易于擴展,并且能應用于具有海量數據和大規模并發訪問的數字圖書館。
背景技術
當前,有很多技術可用于構建數字圖書館。一般的數字圖書館采用數據庫方法,該方法能夠方便快捷地構建數據規模比較小的圖書館系統。但是當數據規模增長到TB級時,其索引規模十分龐大,檢索速度低,無法滿足當前信息爆炸式增長的要求。另一方面,當用戶并發查詢請求量增長時,這些技術無法靈活擴展,難以適應不斷增長的用戶需求。
當前,還存在被一些著名的商業搜索引擎所采用的信息檢索技術。這些技術通常采用采集器從互聯網(INTERNET)上自動抓取網頁,且采用索引技術為網頁進行索引。在這些技術中,典型地使用倒排表(Inverted?List),并基于網頁特點進行排序且返回檢索結果,為用戶提供秒級的檢索服務。
然而,圖書檢索有其自身的特點:與自動抓取的Web數據不同,圖書館的數據為經過加工的質量較高的結構化數據,其數據內容更為豐富;另外,Web檢索只是針對網頁平面內容進行檢索,而圖書檢索系統需要更深層次的字段級檢索;此外,Web檢索更為注重前幾十個檢索結果的準確性,而圖書檢索要求查全、查準,且要求長期有效的檢索。
目前的商業搜索引擎沒有充分考慮到數字圖書館服務的這些特點,而且對于硬件資源的要求很高,這對于目前作為公共服務的圖書館來說,是難以做到的。
隨著近年來圖書館的發展和館藏數字化資源的不斷豐富,數字圖書館已經擁有大量的數字資源,并需要通過互聯網對外提供服務。這就對數字圖書館建設提出了一個挑戰:如何面臨海量元數據和服務于全世界需求者來構造一個檢索系統。因此,人們迫切需要一種高效率、可擴展的數字圖書館構建方法,該方法必須滿足圖書檢索查全、查準的要求,且能夠隨著數據增長、用戶并發查詢的增長而進行擴展,并且能處理多語種數據源。
發明內容
因此,本發明的目的是提出一種在數字圖書館中所采用的檢索系統和檢索方法,能夠高效地進行檢索且易于擴展,并且能應用于具有海量數據和大規模并發訪問的數字圖書館。
為了實現以上目的,本發明提出了一種在數字圖書館中所采用的檢索系統,包括:包含一個或多個檢索控制器的檢索控制器層,用于將來自用戶的用戶查詢轉發到檢索服務器層,并對來自檢索服務器層的相應檢索結果進行處理以返回給用戶;包含一個或多個檢索服務器的檢索服務器層,用于存儲數字圖書館的核心索引數據,并針對所述用戶查詢首先在所述核心索引數據中執行檢索以獲取檢索結果,而在核心索引數據中無法獲取檢索結果的情況下,則通過訪問索引服務器層以獲取檢索結果,并將所獲得的檢索結果提供給檢索控制器層;以及包含一個或多個索引服務器的索引服務器層,用于存儲數字圖書館的所有索引數據,以便通過檢索服務器層的訪問從所述所有索引數據中檢索出相應的索引以獲取檢索結果。
優選地,所述檢索系統還包括:分發服務器層,用于對來自用戶的用戶查詢進行負載均衡處理。
優選地,所述負載均衡處理采用基于IP層的負載分發、基于傳輸層的負載分發、基于應用層的負載分發來實現。
優選地,所述基于IP層的負載分發包括基于IP層的Round-Robin方式。
優選地,由所述檢索控制器層對來自檢索服務器層的相應檢索結果進行處理通過對所述相應檢索結果進行合并并生成摘要來實現。
優選地,所述檢索控制器層對檢索結果用XML格式進行組織。
優選地,所述檢索服務器層中的檢索服務器按照對應于不同的圖書數據庫分別建立相應的核心索引的方式來形成相應的檢索服務器組,并且所述索引服務器層中的索引服務器按照對應于不同的圖書數據庫分別保存相應的索引的方式來形成相應的索引服務器組。
優選地,所述核心索引按照索引的倒排鏈長度處于兩個閾值之間的方式來建立。
優選地,所述核心索引根據索引的歷史出現頻度來建立。
優選地,所述核心索引根據與用戶訪問行為特征相對應的核心詞匯來建立。
優選地,當用戶并發查詢請求增長時,檢索控制器和檢索服務器組的數目以線性的方式增加。
優選地,當數字圖書館的數據規模增加時,檢索控制器和索引服務器的數目以線性的方式增加。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中國科學院計算技術研究所,未經中國科學院計算技術研究所許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/200610072075.6/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:汽車物理特征參數的測量方法
- 下一篇:硬質合金碎粒鉆頭





