[發明專利]一種電子文檔全文檢索的方法及系統有效
| 申請號: | 200710140688.3 | 申請日: | 2007-10-09 |
| 公開(公告)號: | CN101408876A | 公開(公告)日: | 2009-04-15 |
| 發明(設計)人: | 劉麗麗;李英 | 申請(專利權)人: | 中興通訊股份有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 北京安信方達知識產權代理有限公司 | 代理人: | 龍 洪;霍育棟 |
| 地址: | 518057廣東省深圳市南山*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 電子 文檔 全文 檢索 方法 系統 | ||
技術領域
本發明涉及信息管理領域,具體涉及信息管理中的一種進行電子文檔全文搜索的系統和方法。
背景技術
傳統的信息管理的方式是采用以紙張為載體的信息分類管理,容量小,保存難。隨著計算機產業的發展,以計算機存儲設備為載體的電子文檔隨即出現,但是,現在多數企業仍然沿用傳統的分類管理的方式來管理這些電子文檔,這樣就無法將這些信息有效的管理和利用,造成了信息巨大的浪費。同時,對于企業來說,往往會迷失在海量的信息中,無法快速找到自己需要的信息。
發明內容
本發明要解決的技術問題是提供一種電子文檔全文檢索的系統和方法,便于用戶快速檢索不同類型的電子文檔提供的信息,得到準確的或者是全面的搜索文檔搜索結果,使得用戶可迅速定位所需要的文件信息。
為了解決上述問題,本發明提供了一種電子文檔全文檢索的方法,包括以下步驟:
(1)根據用戶配置的數據源、索引創建與更新的策略,對該數據源的文檔屬性信息以及與其對應的文本內容信息進行信息抽取,并為其中每個詞分別建立索引,構建與該數據源對應的全文檢索索引庫;
(2)接收用戶輸入的查詢內容,并根據其確定查詢條件,在所述全文檢索索引庫中對該索引文件進行查找,得到匹配的文檔屬性信息以及對應的文本內容信息;
(3)提取該文本內容信息中與用戶搜索相關的摘要信息,并將該摘要信息與對應的文檔屬性信息一同返回給用戶;
進一步的,本發明所述的方法,其中,步驟(1)中,所述用戶配置的數據源,為一個或者多個電子文檔庫;
進一步的,本發明所述的方法,其中,步驟(1)中,在所述數據源更新同時,自動同步更新所述全文檢索索引庫內的信息,包括以下步驟:
(i)定時掃描電子文檔庫的文檔屬性信息與文本內容信息;
(ii)提取所述文檔的當前信息,并與全文檢索索引庫中電子文檔的歷史信息進行對比;
(iii)將有更新操作的文檔,在全文檢索索引庫中同步進行更新操作;
進一步的,本發明所述的方法,其中,步驟(2)中,進一步包括以下步驟:
(2a)接收用戶輸入的查詢內容,根據關鍵詞提取策略對用戶提供的查詢內容進行關鍵詞提取;
(2b)根據提取出的關鍵詞所形成的查詢條件,在所述全文檢索索引庫中對該索引文件進行查找,得到匹配的文檔屬性信息與對應的文本內容信息;
進一步的,本發明所述的方法,其中,所述查詢內容,包括以下內容之一或多個的組合:文檔內容、文檔摘要、文檔標題、文檔創建時間、文檔更新時間、文檔作者、文檔類型、文檔大小以及文檔路徑;
進一步的,本發明所述的方法,其中,所述文檔屬性信息,包括:文檔標題、文檔創建時間、文檔更新時間、文檔作者、文檔類型、文檔大小以及文檔路徑;所述文本內容信息,包括:文檔內容、與文檔摘要;
本發明所述的方法,其中,步驟(3)中,進一步包括:
當用戶輸入的查詢內容未包括文檔內容時,提取該文本內容信息中的文檔摘要作為摘要信息,與對應的文檔屬性信息一同返回給用戶;
當用戶輸入的查詢內容包括文檔內容時,根據關鍵詞對文本內容信息中的文檔內容進行檢索,提取其中命中關鍵字的文檔內容片段作為摘要信息,與對應的文檔屬性信息一同返回給用戶;
為了解決上述問題,本發明還提供了一種電子文檔全文搜索系統,包括:
索引模塊,根據用戶配置的數據源、索引更新與重建的策略對全文索引進行維護,抽取該數據源中文檔屬性信息以及與其對應的文本內容信息,并為其中的每個詞分別創建索引信息,構建與該數據源對應的全文檢索索引庫;
查詢入口模塊,用于接收用戶輸入的查詢內容,并將其發送給查詢模塊進行處理,還用于調用查詢模塊在文本內容信息中提取摘要信息,并將查詢模塊返回的摘要信息與對應的文檔屬性信息一起反饋給用戶;
查詢模塊,用于根據輸入的查詢內容確定查詢條件,在所述全文檢索索引庫中對索引文件進行查詢,經查詢入口模塊調用,在查詢到的文本內容信息中提取摘要信息,并將其與對應的文檔屬性信息一起返回給查詢入口模塊;
進一步的,本發明所述的系統,其中,所述查詢內容,包括以下內容之一或多個的組合:文檔內容、文檔摘要、文檔標題、文檔創建時間、文檔更新時間、文檔作者、文檔類型、文檔大小以及文檔路徑;所述文檔屬性信息,包括:文檔標題、文檔創建時間、文檔更新時間、文檔作者、文檔類型、文檔大小以及文檔路徑;所述文本內容信息,包括:文檔內容、與文檔摘要;
進一步的,本發明所述的系統,其中,所述查詢模塊,包括:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中興通訊股份有限公司,未經中興通訊股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/200710140688.3/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種健胃中藥
- 下一篇:一種二甘醇二苯甲酸酯的制備方法





