[發明專利]一種面向實時搜索的緩存方法有效
| 申請號: | 201210165475.7 | 申請日: | 2012-05-24 |
| 公開(公告)號: | CN102693308A | 公開(公告)日: | 2012-09-26 |
| 發明(設計)人: | 王飛;常智山 | 申請(專利權)人: | 北京迅奧科技有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 北京市商泰律師事務所 11255 | 代理人: | 毛燕生 |
| 地址: | 100096 北京市海淀區建材*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 面向 實時 搜索 緩存 方法 | ||
技術領域
本發明涉及一種面向實時搜索的緩存方法,屬于計算機程序技術領域。
背景技術
互聯網規模的急劇膨脹,基于Web的電子信息以爆炸式的速度增長。普通用戶想在紛繁復雜的海量數據中找到所需的內容如同大海撈針,而搜索引擎正是為了滿足廣大用戶的信息檢索需求而誕生。
主流的搜索引擎基本結構,如圖1所示,包括數據下載子系統、數據預處理子系統、索引子系統、檢索子系統、網頁庫、正向索引庫、文檔庫和倒排索引庫。
數據采集子系統根據相應的采集策略的,對互聯網進行批量或增量的信息掃描,完成網頁信息采集。
數據預處理子系統對采集到信息進行分析,提取檢索項,并統計相應的位置、頻率信息,估算檢索項權重。
索引子系統按照一定周期,創建新的全局索引文件。檢索子系統依據最新靜態索引文件完成用戶查詢的檢索服務。
為了實現海量數據的檢索服務,搜索引擎大量采用分布式計算技術和緩存技術,其中,緩存技術的應用大幅提高檢索效率,改善了用戶的使用感受。
搜索引擎系統按照一定策略對檢索過程中產生的最終運算結果或中間計算數據進行存儲,降低后續查詢的運算負載。
文獻“Three?Level?Caching?for?Efficient?Query?Processing?in?Large?Web?Search?Engines”文獻[1][用于大型web搜索引擎高效檢索的三層緩存結構設計]對搜索引擎緩存技術進行了分析,提出了基于檢索結果、查詢項交集結果列表、查詢倒排列表的三層緩存方法,如圖2所示,目前被廣泛采用,并獲得非常好的運行效果。
文獻“New?Caching?Techniques?for?Web?Search?Engines”[webs搜索引擎新緩存技術]文獻[2]在文獻[1]的基礎上提出增加一個Top-K(最相關的前K條)結果集docID(文章編號)列表緩存。但M.Marin,V.G.Costa,C.G.Pantoja文獻[2]所做的這些改進只適合于靜態索引技術創建的索引庫,且仍然無法解決對于增量索引所創建的索引庫在檢索時所存在的緩存問題。
本發明是參考了M.Marin,V.G.Costa,C.G.Pantoja文獻[2]并做了進一步的改進來解決采用增量索引技術創建索引庫在檢索時所存在的緩存問題。
隨著twitter、facebook等web2.0應用的興起,人們對于獲取實時發布的信息內容越來越感興趣,對搜索引擎查詢的時效性、實時性提出了更高的要求。
基于靜態索引+緩存技術的搜索引擎架構無法勝任具有強實時特性的信息數據檢索,實時搜索技術成為搜索引擎技術的研發熱點。
目前,已知的實時搜索引擎主要采用增量索引技術,索引庫分為磁盤索引和內存索引二部分,同時提供檢索服務。
內存索引用于實時加載新增的數據,當加載數據達到一定規模時,保存成磁盤索引或者與已有的磁盤索引進行歸并。
內存索引的引入使得搜索引擎能夠支持數據的實時加載。
背景技術缺陷:
采用增量索引技術后,搜索引擎能夠支持數據的實時加載。但,增量索引過程使索引庫始終處于不斷變化的過程,為了已有的緩存技術性能得到下降。無法發揮的實時實現數據的都具備兩個基本特征,一個是大量不間斷的增量實時數據,一個是數據變化會實時體現到檢索結果,采用現有的檢索緩存方法會存在以下問題:
1、過短的緩存有效期,可縮減檢索結果的延遲,但卻會造成緩存命中率過低,對后臺造成較大壓力,失去了緩存的意義。
2、過長的緩存有效期,雖提高了命中率,但造成了不必要檢索結果延遲,從而失去了檢索結果的實時性。
發明內容
本發明提出了一種基于增量索引技術的檢索結果緩存方法,用于解決增量索引技術中采用傳統的緩存技術造成檢索結果過長的延遲或者命中率過低造成的檢索壓力偏大的問題。
一種面向實時搜索的緩存技術,緩存當前檢索結果和后臺索引庫最大docID,通過僅向后臺服務器檢索增量部分的數據,緩存檢索結果的Top-K結果集及文檔最大的docID值;
計算新增的增量數據,避免在緩存有效期內直接返回緩存結果。
一種基于增量索引技術的檢索結果緩存方法,含有以下步驟;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京迅奧科技有限公司,未經北京迅奧科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201210165475.7/2.html,轉載請聲明來源鉆瓜專利網。





