[發明專利]一種全文檢索系統中索引信息的更新方法以及裝置有效
| 申請號: | 201110457703.3 | 申請日: | 2011-12-30 |
| 公開(公告)號: | CN103186622A | 公開(公告)日: | 2013-07-03 |
| 發明(設計)人: | 徐劍波;童征宇;閆進兵 | 申請(專利權)人: | 北大方正集團有限公司;北京方正阿帕比技術有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 北京同達信恒知識產權代理有限公司 11291 | 代理人: | 郭潤湘 |
| 地址: | 100871 北京市*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 全文 檢索系統 索引 信息 更新 方法 以及 裝置 | ||
技術領域
本發明涉及信息檢索技術領域,尤其涉及一種全文檢索系統中索引信息的更新方法以及裝置。
背景技術
全文檢索系統是目前應用非常普及的一種檢索系統,該檢索系統主要根據預先建立的倒排索引文件確定出與用戶終端提交的檢索詞匹配的文檔,該文檔一般為包括用戶終端提交的各檢索詞的文檔。
隨著信息技術的發展以及檢索需求的增加,在全文檢索系統中,可能需要更新保存的文檔中的部分數據域以實時反映保存的數據的狀態,從而保證檢索獲取的信息的有效性。例如,在索引庫中文檔的主要內容不變的情況下,需要對該文檔包括的部分數據域進行更新,如更新圖書對應文檔中包括的購買次數、點擊量等數據域的數據,由于此類數據域的數據會隨著用戶的使用而不斷更新,因此,數據更新成為全文檢索系統處理數據的一個重要方面。
全文檢索系統一般都采用倒排索引標識索引庫中保存的文檔,根據倒排索引文件格式的設計特點,一個文檔的信息會散布在索引文件的多處位置,文檔的標記會被包含在該文檔的所有詞項的對應文檔列表中,從而使得倒排索引系統無法通過在現有索引上簡單地修改某些數據項來實現索引的更新。目前,在更新數據的實際操作中,一般是對文檔中的部分數據進行更新,將該更新后的新文檔保存至全文檢索系統的索引庫中,并刪除舊文檔。這種方式需要將整個文檔的內容再次提交到全文檢索系統,這在只需要更新文檔中部分數據域的數據的情況下,由于需要對文檔中未更新的數據域中的數據重新創建索引,從而會消耗大量的時間,更新的效率很低,尤其在高頻率更新的情況下,對全文檢索系統的更新效率的影響會更加嚴重,甚至會影響檢索的性能。
綜上所述,現有全文檢索系統對應只有部分數據域的數據更新的文檔,會針對該文檔中的全部數據重新建立索引信息,從而降低了全文檢索系統中索引信息的更新效率。
發明內容
有鑒于此,本發明實施例提供一種全文檢索系統中索引信息的更新方法以及裝置,采用該技術方案,能夠提高全文檢索系統中索引信息的更新效率。
本發明實施例通過如下技術方案實現:
根據本發明實施例的一個方面,提供了一種全文檢索系統中索引信息的更新方法,所述索引信息包括對應同一文檔標識的第一索引信息以及第二索引信息,其中,所述第一索引信息為針對所述文檔標識對應的文檔中動態更新屬性的數據域對應的數據建立的索引信息,所述第二索引信息為針對所述文檔標識對應的文檔中非動態更新屬性的數據域對應的數據建立的索引信息;
所述更新方法,包括:
全文檢索系統對所述動態更新屬性的數據域對應的數據進行監控;
在監控到所述動態更新屬性的數據域對應的數據存在新的數據后,對包括所述新的數據的動態更新屬性的數據域對應的數據重新建立對應所述文檔標識的第三索引信息。
根據本發明實施例的另一個方面,還提供了一種全文檢索系統中索引信息的更新裝置,包括:
索引信息建立單元,用于建立索引信息,所述索引信息包括對應同一文檔標識的第一索引信息以及第二索引信息,其中,所述第一索引信息為針對所述文檔標識對應的文檔中動態更新屬性的數據域對應的數據建立的索引信息,所述第二索引信息為針對所述文檔標識對應的文檔中非動態更新屬性的數據域對應的數據建立的索引信息;
監控單元,用于對所述索引信息建立單元建立的第一索引信息對應的所述動態更新屬性的數據域對應的數據進行監控;
索引信息更新單元,用于在所述監控單元監控到所述動態更新屬性的數據域對應的數據存在新的數據后,對包括所述新的數據的動態更新屬性的數據域對應的數據重新建立對應所述文檔標識的第三索引信息。
通過本發明實施例提供的上述至少一個技術方案,全文檢索系統在建立索引信息時,將索引信息分成兩個索引信息,即包括對應同一文檔標識的第一索引信息以及第二索引信息,其中,第一索引信息為針對文檔標識對應的文檔中動態更新屬性的數據域對應的數據建立的索引信息,第二索引信息為針對文檔標識對應的文檔中非動態更新屬性的數據域對應的數據建立的索引信息。基于該索引信息,全文檢索系統在監控到動態更新屬性的數據域對應的數據存在新的數據后,只需要對包括新的數據的動態更新屬性的數據域對應的數據重新建立對應文檔標識的第三索引信息。本技術方案與現有技術相比,全文檢索系統在監控到索引信息包括的第一索引信息對應的動態更新屬性的數據域中的數據存在新的數據后,只需對包括新的數據的動態更新屬性的數據域對應的數據重新建立對應文檔標識的第三索引信息,而無需針對整個文檔重新建立索引,從而與現有技術相比,提高了全文檢索系統中索引信息的更新效率。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北大方正集團有限公司;北京方正阿帕比技術有限公司,未經北大方正集團有限公司;北京方正阿帕比技術有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201110457703.3/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:版式文件的處理方法和裝置
- 下一篇:篩選地理信息的方法、裝置與移動終端
- 信息記錄介質、信息記錄方法、信息記錄設備、信息再現方法和信息再現設備
- 信息記錄裝置、信息記錄方法、信息記錄介質、信息復制裝置和信息復制方法
- 信息記錄裝置、信息再現裝置、信息記錄方法、信息再現方法、信息記錄程序、信息再現程序、以及信息記錄介質
- 信息記錄裝置、信息再現裝置、信息記錄方法、信息再現方法、信息記錄程序、信息再現程序、以及信息記錄介質
- 信息記錄設備、信息重放設備、信息記錄方法、信息重放方法、以及信息記錄介質
- 信息存儲介質、信息記錄方法、信息重放方法、信息記錄設備、以及信息重放設備
- 信息存儲介質、信息記錄方法、信息回放方法、信息記錄設備和信息回放設備
- 信息記錄介質、信息記錄方法、信息記錄裝置、信息再現方法和信息再現裝置
- 信息終端,信息終端的信息呈現方法和信息呈現程序
- 信息創建、信息發送方法及信息創建、信息發送裝置





