[發明專利]存儲高效、更新優化的事務型全文索引視圖維護的方法和系統有效
| 申請號: | 201380050962.1 | 申請日: | 2013-09-20 |
| 公開(公告)號: | CN104854582B | 公開(公告)日: | 2019-03-01 |
| 發明(設計)人: | E·C·比歇;P·普列沙奇科夫;S·權;S·黃 | 申請(專利權)人: | EMC公司 |
| 主分類號: | G06F16/951 | 分類號: | G06F16/951 |
| 代理公司: | 中國專利代理(香港)有限公司 72001 | 代理人: | 張金金;姜甜 |
| 地址: | 美國麻*** | 國省代碼: | 美國;US |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 存儲 高效 更新 優化 事務 全文 索引 視圖 維護 方法 系統 | ||
方法和系統針對更新優化和存儲高效的事務型全文索引視圖維護的方法。實施例包括在任意特定時間發生大量更新的情況下降低維護事務型索引視圖的開銷需求的方法和系統。該方法涉及在更新的事務型查詢間間維護單個黑名單位圖、當需求新的視圖時向位圖應用最新的一組更新,以及當創建了事務型視圖時對位圖進行后調整以保證應當可見的條目未被移除。
背景技術
全文索引系統,例如搜索引擎索引算法和文檔檢索系統,典型地利用倒排索引(或“記入文件”)作為索引數據結構,該索引數據結構存儲從內容(例如,詞或數字)到數據庫文件或文檔中位置的映射。倒排索引通常允許快速搜索操作,但當向數據庫中增加文檔時可能導致更多的處理。通過創建正向索引來形成倒排索引,正向索引存儲每個文檔的字列表,該正向索引然后被轉化以創建倒排索引,倒排索引根據每個字列出文檔。由于不需要使用正向索引順序地重復每個文檔和每個字來驗證匹配文檔,這加速了查詢過程。在創建了倒排索引的情況下,可通過經由倒排索引中的隨機訪問操作跳至字標識符來解決查詢。
對全文索引環境應用更新通常是一項具有挑戰性的任務,因為倒排索引是為了快速查詢而不是為了更新而設計的。將被刪除的條目列入黑名單是一種阻止訪問被刪除條目的常見技術,并且一般而言比直接更新它們更加高效。也就是說,當被列入黑名單時,被刪除對象實質上被虛擬地刪除,如同在查詢過程中一開始存在但在查詢操作完成之前被過濾掉了。一旦(在正常的合并操作期間)索引被重建,物理刪除將反映到索引上。需要這個過程是因為對黑名單對象的后查詢過濾損害了查詢性能。
這樣的方法與被設計為支持低延遲直接更新的典型關系數據庫的B-樹索引形成對照。更新高效的性能允許關系型B-樹索引被用于聯機事務處理(OLTP)應用及其它需要低延遲更新的應用。然而,該索引方法的不利之處在于,它不能提供倒排全文索引更高價值的模糊搜索。
與低延遲事務型數據庫系統不同,典型的全文環境在反映更新上具有非常高的延遲。在較舊的靜態版本被查詢的同時,全文數據庫系統收集所有變化并將它們應用到新版本的索引上。這個過程意味著需要花幾分鐘到幾小時的時間來反映和應用更新。結果,為了信息檢索應用中所使用的高質量搜索,這些應用犧牲了低延遲更新。
黑名單位圖是一種記錄了至少一個不能與服務同時共享資源的服務的位圖。事務型查詢視圖的結構不僅包括確定要使用的一組索引,還包括獲取反映最近變換的最新版本的黑名單位圖。黑名單位圖必須在另一事務完成后重新創建以反映系統的當前變化。在許多情況下,可能只是從永久黑名單結構中重建黑名單位圖。然而,在任何特定時間發生大量更新的情況下,由于掃描和使用黑名單項目的列表來創建新的黑名單位圖,該過程可能變得代價高得不可接受。
該黑名單位圖的重建可在不同事務的用戶之間共享,只要他們的事務型視圖本質上相同。然而,讀事務開始和結束在不同的時間而寫事務可能在這些完成之間發生。這導致了多個并行的讀事務具有不同的黑名單位圖。這些獨特的黑名單位圖視圖的創建可導致查詢花費大約多達一分鐘的時間,因為要處理成百上千的黑名單條目來創建該視圖。
因此,需要一種在大量更新的情況下減少維護事務型索引視圖開銷的改進方法。
附圖說明
通過結合附圖閱讀本說明書,所要求保護的主題的優點對于本領域技術人員來說將是顯而易見的,附圖中使用相似的參考數字指代相似的元素,并且其中:
圖1是說明可在其中實現本主題的示例硬件設備的模塊圖;
圖2說明了在實施例下應用更新的示例全文索引環境;
圖3說明了在實施例下在全文索引環境中更新文檔的過程;
圖4說明了在實施例下取決于事務行為的文檔的不同視圖從而說明位圖高速緩存方法的操作;
圖5說明了在實施例下單個全局位圖高速緩存的使用;
圖6A是說明在實施例下在全文環境中維護索引的方法的流程圖;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于EMC公司,未經EMC公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201380050962.1/2.html,轉載請聲明來源鉆瓜專利網。





