[發明專利]一種創建索引庫的系統及其方法有效
| 申請號: | 200810056000.8 | 申請日: | 2008-01-03 |
| 公開(公告)號: | CN101196935A | 公開(公告)日: | 2008-06-11 |
| 發明(設計)人: | 游波;李英 | 申請(專利權)人: | 中興通訊股份有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 北京律誠同業知識產權代理有限公司 | 代理人: | 梁揮;祁建國 |
| 地址: | 518057廣東省深圳市南*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 創建 索引 系統 及其 方法 | ||
1.一種創建索引庫的系統,包括用于從數據源提取文本信息的抓取模塊、用于對所述文本信息進行預處理的預處理模塊,其特征在于,還包括:
調度模塊,連接所述抓取模塊,用于對所述抓取模塊進行調度控制;
索引生成模塊,連接所述調度模塊、所述預處理模塊,用于在所述調度模塊的調度控制下從所述預處理模塊獲取預處理后的文本信息,根據所述預處理后的文本信息生成索引記錄,并將所述索引記錄寫入到所創建的多個臨時子索引庫中;
索引庫合并模塊,連接所述索引生成模塊,用于對所述多個臨時子索引庫中的索引記錄進行合并處理,得到單一的目標索引庫。
2.根據權利要求1所述的創建索引庫的系統,其特征在于,所述調度模塊根據設定的策略或事件對所述抓取模塊和所述索引生成模塊進行調度控制;并當滿足抓取策略時,啟動所述抓取模塊;當滿足索引生成策略時,啟動所述索引生成模塊。
3.根據權利要求1所述的創建索引庫的系統,其特征在于,所述抓取模塊從不同的數據源以不同的方式提取所述文本信息;
當從互聯網上提取所述文本信息時,通過HTTP方式到互聯網上提取;
當從數據庫中提取所述文本信息時,通過數據庫接口方式提取;
當從電子文檔中提取所述文本信息時,通過對應格式的插件提取。
4.根據權利要求1、2或3所述的創建索引庫的系統,其特征在于,所述索引生成模塊根據所述預處理后的文本信息的信息數量或所述索引記錄的規模創建所述多個臨時子索引庫。
5.根據權利要求1、2或3所述的創建索引庫的系統,其特征在于,所述索引生成模塊采用并行方式將索引記錄寫入到所述多個臨時子索引庫中。
6.一種創建索引庫的方法,其特征在于,包括:
步驟一,對從數據源中提取的文本信息進行預處理,得到預處理后的文本信息;
步驟二,創建多個臨時子索引庫,并將根據所述預處理后的文本信息生成的索引記錄寫入到所述多個臨時子索引庫中;
步驟三,對所述多個臨時子索引庫中的索引記錄進行合并處理,生成單一的目標索引庫。
7.根據權利要求6所述的創建索引庫的方法,其特征在于,所述步驟一中,進一步包括:通過對所述文本信息進行凈化、消重和/或格式化實現預處理的步驟。
8.根據權利要求6所述的創建索引庫的方法,其特征在于,所述步驟二中,進一步包括:根據所述預處理后的文本信息的信息數量創建所述多個臨時子索引庫的步驟。
9.根據權利要求6、7或8所述的創建索引庫的方法,其特征在于,所述步驟二中,進一步包括:通過啟動多個并行處理線程獲取所述預處理后的文本信息的步驟。
10.根據權利要求6、7或8所述的創建索引庫的方法,其特征在于,所述步驟二中,進一步包括:采用并行方式將所述索引記錄寫入到所述多個臨時子索引庫中的步驟。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中興通訊股份有限公司,未經中興通訊股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/200810056000.8/1.html,轉載請聲明來源鉆瓜專利網。





